Entrenar IAs con data generada por IAs puede terminar en el colapso del modelo

Mundo, 08 de ago 2024 (ATB Digital).- Un estudio publicado en la revista Nature advierte sobre los peligros de utilizar datos generados por inteligencia artificial (IA) para entrenar futuras generaciones de modelos de aprendizaje automático. A este fenómeno se le conoce como colapso de modelo.

La investigación revela que, en pocas generaciones, el contenido original es reemplazado por información sin sentido, subrayando la importancia de utilizar datos confiables para entrenar estos modelos.

Data de entrenamiento

Las herramientas de IA generativa, como los grandes modelos de lenguaje (LLM), han ganado popularidad y, en su mayoría, han sido entrenadas con insumos generados por humanos.

Sin embargo, a medida que estos modelos proliferan en Internet, existe el riesgo de que el contenido generado por computadora se utilice para entrenar otros modelos de IA, o incluso a sí mismos, en un bucle recursivo.

Ilia Shumailov y sus colegas presentan modelos matemáticos que ilustran cómo los modelos de IA pueden experimentar colapso de modelo. Los autores demuestran que una IA puede pasar por alto ciertos resultados (por ejemplo, líneas de texto menos comunes) en los datos de entrenamiento, provocando que se entrene solo con una parte del conjunto de datos.

Los investigadores también investigaron cómo respondían los modelos de IA a un conjunto de datos de entrenamiento creado predominantemente por inteligencia artificial.

Descubrieron que alimentar a un modelo con datos generados por IA hace que las generaciones sucesivas degraden su capacidad de aprendizaje, conduciendo eventualmente al colapso de modelo.

Casi todos los modelos de lenguaje entrenados de forma recursiva que probaron tendían a mostrar frases repetitivas. Por ejemplo, en una prueba utilizando texto sobre arquitectura medieval como insumo original, para la novena generación el resultado fue una lista de liebres de campo.

¿La razón?

Los autores proponen que el colapso de modelo es un resultado inevitable en los modelos de IA que utilizan conjuntos de datos de entrenamiento creados por generaciones anteriores.

Sí se puede entrenar con éxito a la IA con sus propios resultados, pero Shumailov y sus colegas sugieren que la filtración de esos datos debe ser tomada muy en serio.

Al mismo tiempo, las empresas tecnológicas que dependen de contenido generado por humanos podrían ser capaces de entrenar modelos de IA que sean más efectivos que los de sus competidores.

Fuente: RT

Entrenar IAs con data generada por IAs puede terminar en el colapso del modelo

Data de entrenamiento

¿La razón?

ATB Usuario

Correo Eléctronico:

VENTAS

Data de entrenamiento

¿La razón?

Archivos desclasificados: Hitler quería lanzar una bomba atómica sobre la URSS en 1945

Dejó de fumar, ahorró el dinero de los cigarrillos para sorprender a su esposa y el video es furor en TikTok

ATB Usuario

Noticias relacionadas

Santa Cruz: Realizan con éxito estimulación de nubes

Sesión de Asamblea tratará el jueves los informes de preselección de candidatos judiciales

Insólito: un ladrón se tragó diamantes valuados en miles de dólares