Inteligencias artificiales para recuperar el pasado
Un debate actual sobre cómo, quién y de qué manera hay que preservar la lengua y los lenguajes
Por Eliana Cabrera
En todo trabajo ligado directamente con la recuperación de la historia, pero sobre todo en arqueología, se trabaja principalmente con la restauración de textos antiguos a partir de los cuales pueden conocer el pasado.
Este proceso suele ser lento debido al estado en el que encuentran las escrituras, ya que el soporte suele estar deteriorado o incompleto. Un grupo interdisciplinar de profesionales desarrolló una herramienta que utiliza la inteligencia artificial para agilizar la tarea.
La herramienta se llama Ithaca y funciona mediante una amplia base de datos y unos inputs[i] a analizar (en este caso, textos incompletos) que calculan un resultado (una propuesta de texto completo). Según lo publicado en la revista científica Nature, la herramienta alcanza un 62% de precisión en la restauración del mensaje completo, lo cual sirve para acelerar el trabajo de los investigadores, dándoles rápidamente una hipótesis fiable sobre la que trabajar.
A la par de Ithaca, un equipo de investigadores del MIT lleva años trabajando en un sistema de inteligencia artificial capaz de descifrar lenguas de las que se tiene poco registro. En sus estudios han sido capaces de descifrar automáticamente una lengua perdida utilizando solo unos pocos miles de palabras, además de develar relaciones entre distintos idiomas.
¿Cómo funcionan estos sistemas?
Para llegar a desarrollar una inteligencia artificial que pueda lograr la recuperación y predicción de textos es necesario un trabajo previo de procesamiento de lenguaje natural.
¿Qué es esto?
Para tratar computacionalmente una lengua es necesario hablarle en su propio idioma de bytes y dígitos.
Lingüistas computacionales se encargan de la tarea de “preparar” el modelo lingüístico para que luego se lo implemente en un código eficiente. Existen varias formas de aproximarse a la “modelización lingüística”, pero el más usado es el modelo probabilístico basado en datos, donde se recogen ejemplos y datos (corpus) y a partir de ellos se calcula la frecuencias de letras, palabras, oraciones y su probabilidad de aparecer en un contexto determinado. Los algoritmos infieren las posibles respuestas a partir de los datos observados anteriormente en el corpus.
En 2021, salió a la luz el proyecto MarIA, primer sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española, creado en el Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS), y construido a partir del patrimonio digital de la Biblioteca Nacional de España.
La misma RAE en 2019 exhibió un proyecto de “Lengua Española e Inteligencia Artificial”, que presentó diciendo: “Estamos en un momento crucial en el que tenemos que hacer algo que hicieron nuestros antecesores del siglo XVIII (con los humanos): normativizar la lengua de las máquinas y de la inteligencia artificial (IA). Su lengua tiende a diversificarse y hay que tomar medidas (…)”. Cuidado.
Existen debates en torno a cómo se está llevando a cabo este proceso de computarización de las lenguas. En el caso del español, si bien la premisa es desarrollar una base de datos accesible para aplicaciones y programas, y sobreponerse al uso masivo del inglés, puede resultar contradictoria la idea de “unificación” de la lengua. Pensar en una idea de español “estándar”, y que además esté regulado por la Real Academia Española, iría en contra de la diversidad que existe en Latinoamérica.
Luciana Benotti, doctora en Ciencias de la Computación con especialidad en Lingüística Computacional, dijo a Télam que estas tecnologías “tienden a unificar todo en un lenguaje estándar y a considerar incorrectas otras variaciones, lo que tiene un correlato con la desaparición de lenguas minoritarias”.
Además, ante la necesidad de tener datos digitalizados, “lenguas que tienen poco registro, como por ejemplo lenguas nativas del continente americano -mapuche, guaraní-, no tienen soporte de este tipo de tecnologías”.
Si bien se trata de avances tecnológicos que buscan facilitar el desarrollo de otros proyectos, habría que considerar si dentro de esas “mejoras” no se está empeorando el panorama para los mismos de siempre.
Cuidado con lo que dice Aldous Huxley a través de uno de sus personajes de Un mundo feliz (1932): “El progreso tecnológico solo nos ha provisto de medios más eficientes para ir hacia atrás.”. ¿Vamos a volver al pasado para recuperarlo o para atrasarnos?
[i] Conjunto de datos que se introducen en un sistema.