Microsoft, los investigadores universitarios utilizan IA para ayudar en el estudio de la escritura antigua en los «huesos del oráculo» de China

Desde que los agricultores comenzaron a desenterrar fragmentos de huesos antiguos en los campos alrededor del río Amarillo en el este de China hace más de 100 años, los investigadores han estudiado de manera cuidadosa la misteriosa escritura que se encuentra en ellos.

La escritura en los «huesos del oráculo», llamados así porque se usaban para tratar de adivinar el futuro, es la forma de escritura china más antigua que se conoce, con una antigüedad de 3 mil años. Pero su estudio ha sido un desafío: los huesos son frágiles y están fragmentados, las copias de la escritura hechas con tinta pueden ser borrosas o incompletas y las colecciones están dispersas en museos nacionales y colecciones privadas en China y en todo el mundo.

Ahora, los investigadores en Beijing utilizan IA para acelerar el trabajo básico pero necesario de comparar cada muestra de escritura con miles de otras en las bases de datos. Este trabajo allana el camino para que los investigadores los descifren y arrojen luz sobre todo, desde las preocupaciones diarias de las personas en la antigüedad hasta cómo se desarrolló por primera vez la escritura china.

“Este es un gran ejemplo de colaboración hombre-máquina”, dijo Bofeng Mo, profesor del Centro de Estudios de Huesos del Oráculo en la Universidad Capital Normal, que trabajó en el proyecto con Zhirong Wu, investigador principal de Microsoft Research Asia.

Dos investigadores que colaboran en el proyecto de los huesos del oráculo.

Bofeng Mo y Zhirong Wu colaboraron para desarrollar un modelo de IA para estudiar la escritura en los huesos del oráculo. Foto de Gilles Sabrie para Microsoft.

Las inscripciones de huesos del oráculo han sido reconocidas por el Registro Internacional de la Memoria del Mundo de la UNESCO como un registro valioso del pueblo Shang desde 1,400 a.C. al 1,100 a.C., además de ser la evidencia más temprana de un sistema de escritura chino. En China, todos los niños aprenden sobre los huesos del oráculo en la escuela.

La mayoría de los huesos fueron excavados alrededor de la ciudad de Anyang en la provincia de Henan, a unos 500 kilómetros (unas 310 millas) al suroeste de Beijing. Por lo general, eran la escápula u omóplatos de los bueyes o los caparazones del vientre de las tortugas, los cuales ofrecen una superficie plana para la escritura. Durante la dinastía Shang, una civilización de la edad de bronce, alguien calentaba los huesos hasta que se rompían. El patrón de las grietas ofrecería orientación sobre asuntos relacionados con la oración, los asuntos reales y militares, el clima, las cosechas, etc.

Desde 1899, se han desenterrado unas 150 mil piezas y ahora se encuentran en más de 100 institutos de todo el mundo, según los expertos detrás de la nominación de la UNESCO. Las colecciones más grandes se encuentran en la Biblioteca Nacional de China, el Museo del Palacio y otras instituciones chinas, aunque las colecciones de huesos del oráculo se encuentran en lugares tan lejanos como el Museo Real Escocés y el Museo Real de Ontario en Canadá.

Las marcas tienen elementos pictográficos y de texto. Sin el equivalente de una piedra de Rosetta como guía, los científicos solo han descifrado alrededor de mil de los aproximadamente 4 mil caracteres identificados.

Antes del Proyecto Diviner, estudiar la escritura de los huesos del oráculo era un proceso manual arduo. Foto de Gilles Sabrie para Microsoft.

Hasta ahora, el estudio de la escritura ha sido bastante laborioso. Las primeras copias de la escritura del hueso del oráculo se hicieron a través de calcar con tinta china y, de manera más reciente, con fotografías y tecnología de imágenes en 3D. Los investigadores tuvieron que comparar de manera manual cada imagen para encontrar duplicados o superposiciones, con el objetivo de unir fragmentos, como un rompecabezas, en un todo más completo para el estudio.

«Dado que una pieza de hueso de oráculo puede haber sido registrada varias veces con diferentes niveles de claridad e integridad, se necesita mucho trabajo para relacionarlos, compararlos e interpretarlos», Yubin Jiang, investigador del Centro de Investigación de Documentos Desenterrados y Caracteres Antiguos en la Universidad de Fudan, le dijo a Microsoft. “En el pasado, esta carga recaía sólo sobre los hombros de académicos con una rica experiencia y una memoria aguda, pero su investigación solo condujo a hallazgos aleatorios”.

Diviner ha logrado completar una detección de duplicación de amplio alcance con una alta eficiencia, fructífera y emocionante”, agregó.

Wu, el investigador de Microsoft, se centra en el naciente campo del aprendizaje auto supervisado, un tipo de aprendizaje automático que no depende de las personas para etiquetar los datos de manera manual. Se acercó a Mo hace alrededor de un año después de escuchar que el profesor experimentaba con IA para estudiar escrituras. En ese momento, Mo usaba un software de reconocimiento de imágenes listo para usar, que solo permitía cargar unas pocas imágenes cada vez y requería que el usuario eligiera una como imagen de referencia.

“Desarrollamos la tecnología para entrenar el modelo Diviner desde cero”, dijo Wu.

Cómo funciona la IA para armar la escritura como un rompecabezas.

The Diviner Project usa IA para filtrar miles de imágenes para hacer coincidir parches de escritura como un rompecabezas. Cortesía de Microsoft.

Wu dijo que él y otro miembro del equipo tardaron de ocho a nueve meses en construir el modelo. En noviembre de 2022, en el espacio de una semana, el Proyecto Diviner comparó 181,134 piezas de calcos de inscripción en 100 bases de datos. No solo reprodujo decenas de miles de duplicados identificados con anterioridad y encontrados por personas, sino que también encontró más de 300 pares nuevos.

Después de que Wu y Mo compartieron los resultados en el sitio web de la Oficina de Investigación Pre-Qin de la Academia China de Ciencias Sociales, que tiene su propia colección sustancial de huesos oraculares, los investigadores de otras instituciones se acercaron a ellos en busca de ayuda, dijo Wu. El proyecto también apareció en un episodio especial de huesos del oráculo en la cadena nacional CCTV el 2 de enero de 2023.

Este es sólo el primer paso.

“El proyecto actual es limpiar los datos y recuperarlos a su forma original a través de unir pequeños fragmentos al grande original”, dijo Wu. “Con esto, esperamos poder pasar al desafío final: descifrar el significado de estos caracteres”.

Esos hallazgos podrían tener implicaciones para diferentes campos.

“Para los arqueólogos, son los restos culturales de los humanos. Para los historiadores, son el material histórico de la dinastía Shang. Para los lingüistas, son los caracteres chinos sistémicos más antiguos”, dijo Mo. Además, “los registros de eclipses solares, eclipses lunares y lluvias de meteoritos que se encuentran en las inscripciones de los huesos del oráculo se pueden fusionar con la astronomía”.

 

Imagen principal: Zhirong Wu de Microsoft Research Asia usa IA para estudiar la escritura china antigua en los huesos del oráculo. Foto de Gilles Sabrie para Microsoft.