Cuando leemos poesía china antigua, a menudo nos sorprendemos de las maravillosas palabras que los escritores antiguos podían usar para describir personas, eventos, objetos y escenas. Este es un espléndido tesoro cultural que se nos ha dejado. Sin embargo, similar a los versos de Shakespeare en el idioma inglés, el chino literario utilizado por estos poetas es a menudo difícil de entender para la gente de hoy en día, y los significados y sutilezas incrustados en él se pierden con frecuencia.
Para resolver este problema, los investigadores de Microsoft Research Asia adoptaron las últimas técnicas de traducción automática neuronal para entrenar modelos de traducción directa entre chino literario y chino moderno, lo que también da como resultado la creación de capacidades de traducción entre chino literario y más de 90 idiomas y dialectos en Microsoft Translator. En la actualidad, la traducción al chino literario se ha integrado en la aplicación Microsoft Translator, Azure Cognitive Services Translator y varios productos de Microsoft compatibles con los servicios de Microsoft Translator.
Permitir que más personas aprecien el encanto de la cultura tradicional china
El chino literario es un importante portador de la cultura tradicional china. Voluminosos libros y textos de la antigüedad han registrado la rica y profunda cultura de China durante los últimos cinco mil años. Los pensamientos y la sabiduría acumulados y contenidos en ellos son dignos de exploración y pensamiento continuos.
Con la ayuda de la traducción automática, los turistas ahora pueden comprender los textos y poemas chinos antiguos escritos en edificios y monumentos históricos, los estudiantes ahora tienen una herramienta adicional para ayudarlos a aprender chino, y los investigadores que se dedican a cotejar y traducir textos antiguos pueden ser más productivos.
Dongdong Zhang, investigador principal de Microsoft Research Asia, dijo: “Desde una perspectiva técnica, el chino literario se puede considerar como un idioma separado. Una vez que se realiza la traducción entre el chino literario y el chino moderno, la traducción entre el chino literario y otros idiomas como el inglés, el francés y el alemán se convierte en algo habitual».
La mayor dificultad del modelo de IA de traducción al chino literario: Pocos datos para entrenamiento
El elemento más crítico del entrenamiento de modelos de IA son los datos. Solo cuando el volumen de datos es lo suficientemente grande y su calidad lo suficientemente alta, puede entrenar un modelo más preciso. En la traducción automática, el entrenamiento del modelo requiere datos bilingües: datos del texto original y datos del idioma de destino. La traducción del chino literario es muy especial, ya que no es un idioma que se use en la vida diaria. Por tanto, en comparación con la traducción de otros idiomas, los datos de formación de la traducción literaria al chino son muy pequeños, lo que no favorece la formación de modelos de traducción automática.
Aunque los investigadores de Microsoft Research Asia recopilaron una gran cantidad de datos chinos modernos y literarios disponibles al público en las primeras etapas, los datos originales no se pueden utilizar de manera directa. La limpieza de datos debe realizarse para normalizar los datos de diferentes fuentes, varios formatos, así como las puntuaciones de ancho completo/medio ancho, como un medio para minimizar la interferencia de datos no válidos en el entrenamiento del modelo. De esta manera, los datos de alta calidad disponibles reales se reducen aún más.
Según Shuming Ma, investigador de Microsoft Research Asia, para reducir el problema de la escasez de datos, los investigadores han realizado una gran cantidad de trabajo de síntesis y aumento de datos, que incluye:
Primero, alineación y expansión basadas en caracteres comunes para aumentar el tamaño de los datos de entrenamiento. A diferencia de las traducciones entre chino y otros idiomas como inglés, francés, ruso, etc., el chino literario y el chino moderno utilizan el mismo conjunto de caracteres. Para aprovechar esta función, los investigadores de Microsoft Research Asia han utilizado algoritmos innovadores para permitir que la traducción automática recuerde caracteres comunes, realice una alineación natural y luego se expanda aún más a palabras, frases y oraciones cortas, para sintetizar así una gran cantidad de datos utilizables.
En segundo lugar, deformar la estructura de la oración para mejorar la solidez de la traducción automática. Con respecto a las rupturas en textos y poemas, los investigadores han agregado una serie de variantes para hacer que las máquinas sean más integrales en el aprendizaje de poemas antiguos. Para las personas, incluso cuando ven una oración que está estructurada de manera anormal, como un poema segmentado en líneas basadas en el ritmo en lugar de oraciones completas, aún pueden juntar las partes y entenderlas. Pero para un modelo de traducción que nunca antes había visto tal segmentación, es probable que se confunda. Por lo tanto, la transformación del formato de datos no solo puede expandir la cantidad de datos de entrenamiento, sino también mejorar la solidez del entrenamiento del modelo de traducción.
En tercer lugar, realicen una capacitación en traducción de caracteres tradicional y simplificada para aumentar la adaptabilidad del modelo. En chino, los caracteres tradicionales existen tanto en el chino literario como en el moderno. Cuando los investigadores entrenaron el modelo, para mejorar la adaptabilidad del modelo, no solo aprovecharon los datos en chino simplificado, sino que también agregaron datos en chino tradicional, así como datos mezclados con caracteres tradicionales y simplificados. Por lo tanto, el modelo puede comprender tanto el contenido tradicional como el simplificado, lo que conduce a resultados de traducción más precisos.
Cuarto, aumentar la formación de palabras en lenguas extranjeras para mejorar la precisión de la traducción. Al traducir chino moderno al chino literario, a menudo hay palabras modernas derivadas de palabras de idiomas extranjeros y palabras nuevas que nunca han aparecido en chino antiguo, como «Microsoft», «computadora», «tren de alta velocidad» y muchas otras. Para abordar este problema, los investigadores entrenaron un pequeño modelo para reconocer entidades. El modelo primero tradujo el significado de la palabra fuera de la entidad, luego volvió a completar la entidad para garantizar la precisión del procesamiento de las palabras extranjeras por parte de la máquina.
Además, para estilos de escritura informales como blogs, foros, Weibo, etc., el modelo de traducción automática se ha entrenado de manera específica para mejorar aún más la solidez de la traducción entre chino moderno y literario.
Dongdong Zhang expresó: “Basándonos en el sistema de traducción actual, continuaremos con el enriquecimiento del conjunto de datos y el mejoramiento del método de entrenamiento del modelo para hacerlo más robusto y versátil. En el futuro, es posible que el método no solo se utilice para la traducción al chino literario, sino que también se pueda extender a otros escenarios de aplicación».