Datos sintéticos (IA)
Los datos sintéticos son datos artificiales que imitan a los datos reales. Se generan con algoritmos o simulaciones por computadora. Entrenar a una IA con datos generados por otra IA, va ganando terreno porque cada vez es más difícil obtener datos nuevos y reales.
Los sistemas de IA son máquinas estadísticas. Entrenados con muchos ejemplos, aprenden de los patrones de esos ejemplos para hacer predicciones.
Los sistemas ingieren datos etiquetados, que son los puntos de referencia que enseñan al modelo a distinguir entre cosas, lugares e ideas.
Consideremos un modelo de clasificación de fotografías al que se le muestran muchas imágenes de gatos etiquetadas con la palabra “gato”. A medida que se entrena, el modelo comenzará a hacer asociaciones entre “gato” y características generales de las fotos (por ejemplo, tienen el cuerpo cubierto de pelo, tienen cuatro patas y cola, tienen uñas afiladas…).
Después del entrenamiento, dada una foto de un gato que no estaba incluida en los entrenamiento inicial, el modelo debería poder identificarla como tal. (Por supuesto, si las imágenes de los gatos estuvieran etiquetadas con la palabra “baño”, las identificaría como baños, lo que enfatiza la importancia de una buena etiquetación).
La necesidad de proporcionar datos etiquetados para el desarrollo de las IA, han hecho que el mercado de estos servicios se dispare. Dimension Market Research estima que su valor actual es de 838,2 millones de dólares y que en los próximos 10 años alcanzará los 10.340 millones. Aunque no existen estimaciones precisas de cuántas personas se dedican al trabajo de etiquetado, un artículo de 2022 sitúa la cifra en «millones».
Las empresas grandes y pequeñas dependen de los trabajadores empleados por firmas para etiquetar los conjuntos de entrenamiento de IA. Algunos de estos trabajos pagan razonablemente bien, en particular si el etiquetado requiere conocimientos especializados (por ejemplo, conocimientos de matemáticas). Los etiquetadores en los países en desarrollo cobran solo unos pocos dólares por hora en promedio, sin ningún beneficio ni garantías de futuros empleos.
Por lo tanto, existen razones humanas para buscar alternativas a las etiquetas generadas por humanos. Por ejemplo, Uber está ampliando su flota de trabajadores independientes para trabajar en el etiquetado de datos. Pero también hay razones prácticas.
Los humanos solo pueden etiquetar a cierta velocidad. Los etiquetadores también tienen sesgos que pueden manifestarse en cualquier modelo entrenado con estos datos. Los etiquetadores cometen errores, se equivocan.
En general, los datos son caros. Shutterstock cobra a los proveedores de inteligencia artificial decenas de millones de dólares por acceder a sus archivos, mientras que Reddit ganó cientos de millones otorgando licencias de datos a Google, OpenAI y otros.
Por último, cada vez es más difícil adquirir datos.
La mayoría de los modelos se entrenan con enormes colecciones de datos públicos, datos que los propietarios cada vez más optan por ocultar por temor a que sean plagiados o a que no reciban el crédito o la atribución por ellos. Más del 35% de los 1.000 sitios web más importantes del mundo bloquean ahora el web scraper de OpenAI.
“Si los datos son el nuevo petróleo, los datos sintéticos se presentan como biocombustibles que se pueden crear sin las externalidades negativas de los datos reales”, dijo a TechCrunch Os Keyes, candidato a doctorado en la Universidad de Washington que estudia el impacto ético de las tecnologías emergentes. “Se puede tomar un pequeño conjunto inicial de datos y simularlo y extrapolarlo para generar nuevas entradas”.
La industria de la IA ha tomado el concepto y lo ha desarrollado.
Este año, Writer, una empresa de inteligencia artificial generativa centrada en las empresas, presentó un modelo, Palmyra X 004, entrenado casi en su totalidad con datos sintéticos. Su desarrollo costó solo 700.000 dólares, según afirma Writer, en comparación con los 4,6 millones de dólares estimados para un modelo OpenAI de tamaño comparable.
La generación de datos sintéticos se ha convertido en un negocio por derecho propio, uno que podría valer 2.340 millones de dólares para 2030. Gartner predice que el 60% de los datos utilizados para proyectos de inteligencia artificial y análisis este año se generarán de forma sintética.
Luca Soldaini, un científico investigador senior del Instituto Allen de IA, señaló que las técnicas de datos sintéticos se pueden utilizar para generar datos de entrenamiento en un formato que no se obtiene fácilmente mediante el scraping (o incluso mediante licencias de contenido).
“Los modelos de datos sintéticos se pueden utilizar para ampliar rápidamente la intuición humana sobre qué datos son necesarios para lograr un comportamiento específico del modelo”, dijo Soldaini.
Riesgos sintéticos
Sin embargo, los datos sintéticos no son una panacea. Sufren el mismo problema de “basura que entra, basura que sale” que toda la IA. Los modelos crean datos sintéticos y, si los datos utilizados para entrenarlos tienen sesgos y limitaciones, sus resultados también estarán contaminados.
Hasta este punto, un estudio de 2023 realizado por investigadores de la Universidad Rice y Stanford descubrió que la dependencia excesiva de datos sintéticos durante el entrenamiento puede crear modelos cuya «calidad o diversidad disminuye progresivamente». El sesgo de muestreo (una representación deficiente del mundo real) hace que la diversidad de un modelo empeore después de unas pocas generaciones de entrenamiento, según los investigadores (aunque también descubrieron que mezclar un poco de datos del mundo real ayuda a mitigarlo).
Los modelos complejos alucinan; los datos producidos por modelos complejos contendrán alucinaciones.
Un estudio publicado en la revista Nature revela cómo los modelos, entrenados con datos llenos de errores, generan datos aún más llenos de errores, y cómo este ciclo de retroalimentación degrada las futuras generaciones de modelos. Los investigadores descubrieron que los modelos pierden su comprensión de conocimientos más esotéricos con el paso de las generaciones, se vuelven más genéricos y, a menudo, producen respuestas irrelevantes para las preguntas que se les plantean.
Al menos en el futuro previsible, parece que necesitaremos humanos involucrados para asegurarnos de que el entrenamiento de un modelo no salga mal.
Elon Musk dice que la IA ya ha devorado todos los datos producidos por humanos para entrenarse y ahora depende de datos sintéticos propensos a las alucinaciones
La escasez de datos para entrenar modelos de IA supone un punto de inflexión histórico. El uso de datos sintéticos es una alternativa no exenta de riesgos.
“Básicamente, hemos agotado la suma acumulada de conocimientos humanos… en materia de entrenamiento de inteligencia artificial”, dijo Musk durante una conversación transmitida en vivo con el presidente de Stagwell, Mark Penn. “Eso sucedió básicamente el año pasado”.
El ex científico jefe de OpenAI, Ilya Sutskever dijo que la industria de la inteligencia artificial había alcanzado lo que él llamó «pico de datos», predijo que la falta de datos de entrenamiento obligará a un cambio en la forma en que se desarrollan los modelos hoy en día.
La recolección de datos auténticos presenta complicaciones logísticas y éticas, lo que ha llevado a una creciente dependencia de datos sintéticos.
Riesgos Asociados con Datos Sintéticos
- Falsa Confianza: El primer riesgo, la falsa confianza, se manifiesta cuando los conjuntos de datos sintéticos se utilizan para diversificar y representar mejor las poblaciones en el entrenamiento. Esto puede llevar a una percepción engañosa de que las tecnologías son más precisas y justas, cuando en realidad pueden perpetuar sesgos existentes
- Elusión del Consentimiento: El segundo riesgo se relaciona con cómo el uso de datos sintéticos puede permitir a los desarrolladores evadir la necesidad de consentimiento para el uso de datos personales. Este riesgo es particularmente grave en el contexto de la regulación de la recopilación de datos.
- Implicaciones Éticas y de Gobernanza: La dependencia de datos sintéticos en el entrenamiento de las IA no solo plantea problemas técnicos, sino que también desafía las normas éticas y de gobernanza existentes. Al desvincular los datos de los individuos a quienes representan, se corre el riesgo de consolidar el poder en manos de quienes crean los modelos, alejando el control de aquellos que podrían verse afectados por decisiones algorítmicas. Esto es especialmente relevante en el contexto de tecnologías que afectan significativamente la vida de las personas, como el reconocimiento facial, que se utiliza en vigilancia y aplicación de la ley.
Conclusión
Los datos sintéticos ofrecen un potencial significativo para abordar las limitaciones en la recolección de datos, pero su uso irresponsable puede tener consecuencias graves. La falsa confianza en su capacidad para diversificar conjuntos de datos y la elusión del consentimiento son riesgos que deben ser cuidadosamente gestionados. Es crucial que la comunidad de los desarrolladores de las IA y los reguladores trabajen juntos para establecer pautas éticas y marcos de gobernanza que aborden estos desafíos, garantizando así que los avances tecnológicos no comprometan la justicia ni la privacidad.
Por Alicia Bañuelos. Científica
Publicado en El Diario de la República