Un corpus de traducción masivamente multilingüe de voz a voz

Un corpus de traducción masivamente multilingüe de voz a voz


La traducción automática de voz de un idioma a otro, conocida como traducción de voz a voz (S2ST), es importante para romper las barreras de comunicación entre personas que hablan diferentes idiomas. Tradicionalmente, los sistemas S2ST automáticos se construyen con una cascada de subsistemas para el reconocimiento automático de voz (ASR), la traducción automática de texto a texto (MT) y la síntesis de texto a voz (TTS), de modo que el sistema en su totalidad es texto. -céntrico. Recientemente, se ha trabajado en S2ST que no depende de representaciones de intertexto, como B. S2ST directo de extremo a extremo (p. ej., Translatotron) y S2ST en cascada basado en representaciones de lenguaje discreto aprendidas (p. ej., Tjandra et al.). Si bien las versiones anteriores de tales sistemas S2ST directos lograron una calidad de traducción más baja en comparación con los modelos S2ST en cascada, están ganando terreno ya que tienen el potencial de reducir la latencia de traducción y los errores compuestos, así como extraer información paralingüística y no lingüística del para mejor. preservar el habla original, por ejemplo, la voz, la emoción, la entonación, etc. Sin embargo, dichos modelos generalmente deben entrenarse en conjuntos de datos con datos S2ST emparejados, pero la disponibilidad pública de dichos corpus es extremadamente limitada.

Para seguir investigando sobre una nueva generación de S2ST, presentamos un corpus de traducción de voz a voz (CVSS) basado en voz común que contiene pares de traducción de voz a voz a nivel de oración de 21 idiomas al inglés. A diferencia de los corpus públicos existentes, CVSS se puede usar directamente para entrenar dichos modelos S2ST directos sin ningún procesamiento adicional. En «CVSS Corpus and Massively Multilingual Speech-to-Speech Translation» describimos el diseño y desarrollo del conjunto de datos y demostramos la efectividad del corpus mediante el entrenamiento de modelos base S2ST directos y en cascada y mostramos el rendimiento de un modelo S2ST directo, acercándose al de un modelo S2ST en cascada.

Crear CVSS
CVSS se deriva directamente del corpus de traducción de voz a texto (ST) de CoVoST 2, que se deriva además del corpus de voz Common Voice. Common Voice es un corpus de discurso transcrito masivamente multilingüe desarrollado para ASR que recopila el discurso de los contribuyentes que leen contenido de texto de Wikipedia y otros corpus de texto. CoVoST 2 también proporciona traducción de texto profesional para la transcripción original de 21 idiomas a inglés y de inglés a 15 idiomas. CVSS se basa en este esfuerzo al proporcionar pares de traducción de idioma a idioma paralelos a nivel de oración de 21 idiomas al inglés (consulte la tabla a continuación).

Para facilitar la investigación con diferentes enfoques, se proporcionan dos versiones del idioma de traducción al inglés en CVSS, ambas sintetizadas utilizando sistemas TTS de última generación, cada versión ofrece un valor único que no está presente en otros corpus públicos de S2ST:

  • CVSS-C: Todo lenguaje de traducción está en la voz de un solo hablante canónico. Aunque el discurso es sintético, el discurso es muy natural, limpio y consistente en el estilo de hablar. Estas propiedades facilitan el modelado del idioma de destino y permiten que los modelos entrenados produzcan un discurso de traducción de alta calidad adecuado para aplicaciones generales orientadas al usuario donde la calidad del discurso es más importante que la reproducción precisa de las voces de los hablantes.
  • CVSS-T: El idioma de traducción captura la voz del idioma de origen correspondiente. Cada par S2ST tiene una voz similar en ambos lados, a pesar de estar en diferentes idiomas. Por esta razón, el conjunto de datos es adecuado para crear modelos en los que se desea una preservación precisa de la voz, p. B. para sincronizar películas.

Junto con el idioma de origen, los dos conjuntos de datos S2ST contienen 1872 y 1937 horas de idioma, respectivamente.

fuente
idioma
código fuente
Discurso (X)
CVSS-C
Idioma de destino (ing)
CVSS-T
Idioma de destino (ing)
francés es

309.3

200.3

222.3

alemán es

226.5

137.0

151.2

catalán aprox.

174.8

112.1

120.9

español eso

157.6

94.3

100.2

italiano eso

73,9

46.5

49.2

persa fa

58.8

29,9

34.5

ruso ru

38.7

26,9

27.4

chino Z h

26.5

20.5

22.1

portugués Punto

20.0

10.4

11.8

holandés nl

11.2

7.3

7.7

estonio etc.

9.0

7.3

7.1

mongol Minnesota

8.4

5.1

5.7

turco tr

7.9

5.4

5.7

Arábica están

5.8

2.7

3.1

letón lv

4.9

2.6

3.1

sueco sv

4.3

2.3

2.8

galés cy

3.6

1.9

2.0

tamil ejército de reserva

3.1

1.7

2.0

indonesio me gustaría

3.0

1.6

1.7

japonés

3.0

1.7

1.8

esloveno SL

2.9

1.6

1.9

en total

1.153,2

719.1

784.2

Duración del idioma de origen y destino de cada par X-en en CVSS (horas).

Además del idioma de traducción, CVSS también proporciona texto de traducción normalizado que coincide con la pronunciación en el idioma de traducción (para números, monedas, acrónimos, etc., consulte los ejemplos de datos a continuación, por ejemplo, donde «100%» se normaliza como «cien por ciento» ). o «King George II» se normaliza como «King George the Second»), lo que puede beneficiar tanto el entrenamiento del modelo como la estandarización de la evaluación.

CVSS se publica bajo una licencia Creative Commons Attribution 4.0 International (CC BY 4.0) y se puede descargar gratis en línea.

muestras de datos

Ejemplo 1:
Fuente de audio (francés)
Transcripción original (francés) Le genere musical de la chanson est entièrement le disco.
CVSS-C Traducción Audio (Inglés)
CVSS-T Traducción Audio (Inglés)
Texto de traducción (inglés) El género musical de la canción es 100% disco.
Texto de traducción normalizado (inglés) el género musical de la canción es 100% disco
Ejemplo 2:
Fuente de audio (chino)
Fuente (chino) 弗雷德里克王子,英国王室成员,为乔治二世之孙,乔治三世之幼弟。
CVSS-C Traducción Audio (Inglés)
CVSS-T Traducción Audio (Inglés)
Texto de traducción (inglés) El príncipe Federico, miembro de la familia real británica, nieto del rey Jorge II, hermano del rey Jorge III.
Texto de traducción normalizado (inglés) príncipe frederick miembro de la familia real británica nieto del rey jorge segundo hermano del rey jorge tercero

modelos basicos
En cada versión de CVSS, entrenamos un modelo base S2ST en cascada y dos modelos base S2ST directos y comparamos su rendimiento. Estas líneas de base se pueden utilizar para la comparación en estudios futuros.

Cascada S2ST: Para crear líneas de base sólidas de S2ST en cascada, entrenamos un modelo ST en CoVoST 2 que supera el estado de la técnica anterior en un BLEU promedio de +5,8 en los 21 pares de idiomas (detallado en el artículo) cuando se ejecuta en Corpus entrenándose sin usar datos adicionales. Este modelo ST está conectado a los mismos modelos TTS utilizados para construir CVSS para formar líneas base S2ST en cascada muy sólidas (ST → TTS).

S2ST directo: Creamos dos modelos base S2ST directos con Translatotron y Translatotron 2. Cuando se entrena desde cero con CVSS, la calidad de traducción de Translatotron 2 (8,7 BLEU) se acerca a la de la base de referencia S2ST en cascada fuerte (10,6 BLEU). Además, la brecha se reduce a solo 0.7 BLEU en la traducción transcrita de ASR cuando ambos usan entrenamiento previo. Estos resultados confirman la efectividad del uso de CVSS para entrenar modelos S2ST directos.

Calidad de traducción de los modelos S2ST directos y en cascada de referencia basados ​​en CVSS-C medidos por BLEU en la transcripción ASR de la traducción del habla. El entrenamiento previo se realizó en CoVoST 2 sin otros conjuntos de datos adicionales.

Conclusión
Hemos publicado dos versiones de conjuntos de datos S2ST de varios idiomas al inglés, CVSS-C y CVSS-T, cada uno contiene aproximadamente 1,9000 horas de pares S2ST paralelos a nivel de oración que cubren 21 idiomas de origen. El idioma de traducción en CVSS-C es la voz de un único hablante canónico, mientras que en CVSS-T se hace lo mismo en voces transmitidas desde el idioma de origen. Cada uno de estos registros ofrece un valor único que no se encuentra en otros corpus públicos de S2ST.

Creamos modelos base S2ST directos multilingües y modelos en cascada S2ST para ambos conjuntos de datos, que se pueden usar para comparar en trabajos futuros. Para crear líneas de base sólidas de S2ST en cascada, entrenamos un modelo ST en CoVoST 2 que supera al estado de la técnica anterior en +5,8 BLEU promedio cuando se entrena en el corpus sin datos adicionales. Aun así, el rendimiento de los modelos S2ST directos se acerca a las sólidas líneas de base en cascada cuando se entrenan desde cero y con solo 0,7 BLEU de diferencia en la traducción transcrita de ASR cuando se usan antes del entrenamiento. Esperamos que este trabajo ayude a acelerar la investigación sobre S2ST directo.

Gracias
Agradecemos a los colaboradores voluntarios y organizadores de los proyectos Common Voice y LibriVox por su contribución y recopilación de grabaciones, a los creadores de Common Voice, CoVoST, CoVoST 2, Librispeech y LibriTTS Corpora por su trabajo hasta la fecha. Los colaboradores directos del corpus y la publicación de CVSS incluyen a Ye Jia, Michelle Tadmor Ramanovich, Quan Wang y Heiga Zen. También agradecemos a Ankur Bapna, Yiling Huang, Jason Pelecanos, Colin Cherry, Alexis Conneau, Yonghui Wu, Hadar Shemtov y Françoise Beaufays por sus útiles debates y su apoyo.

Related post

Meta agrega control de voz para el chat en vivo de Horizon Worlds con extraños de forma predeterminada – TechCrunch

Meta agrega control de voz para el chat en…

Es posible que Meta pronto quiera que todos salten a sus reinos virtuales de juego, pero algunos usuarios se sorprenderán. Para…
Alucinaciones para una mejor traducción de texto |  Noticias del MIT

Alucinaciones para una mejor traducción de texto | Noticias…

De bebés, balbuceamos e imitamos nuestra forma de aprender idiomas. No comenzamos leyendo texto sin procesar, lo que requiere conocimientos y…
Google muestra gafas «prototipo» para traducción AR en vivo

Google muestra gafas «prototipo» para traducción AR en vivo

La presentación principal de Google en la conferencia anual de desarrolladores terminó con un video que muestra un prototipo de un…

Leave a Reply

Tu dirección de correo electrónico no será publicada.