Mundo, 7 junio 2025 (ATB Digital).- En un entorno donde la industria de la inteligencia artificial avanza a pasos de gigante, un grupo de investigadores ha demostrado que es posible entrenar modelos de lenguaje sin recurrir a contenido protegido por derechos de autor. La hazaña no solo ofrece una alternativa más ética, sino que también contradice afirmaciones previas de gigantes tecnológicos como OpenAI, que sostenían que esta posibilidad era inviable.
El experimento detrás del modelo «limpio»
Este ambicioso proyecto fue llevado a cabo por 14 instituciones, entre ellas universidades reconocidas como el MIT, Carnegie Mellon y la Universidad de Toronto, junto con organizaciones sin ánimo de lucro como el Vector Institute y el Allen Institute for AI. Su objetivo era demostrar que se puede construir un modelo útil usando únicamente datos del dominio público o con licencias abiertas.
Para lograrlo, los investigadores recopilaron un conjunto de datos de 8 TB de información cuidadosamente seleccionada. Entre las fuentes destacaban 130.000 libros de la Biblioteca del Congreso de EE.UU., además de múltiples sitios web con permisos explícitos de uso. Toda esta información fue procesada para entrenar un modelo de lenguaje de siete mil millones de parámetros (7B), una arquitectura comparable a la de modelos populares como LLaMA 2-7B de Meta.
Una tarea titánica: limpiar y verificar los datos
Aunque entrenar un modelo con contenido libre de derechos puede sonar ideal en teoría, en la práctica fue un trabajo arduo. Muchas de las fuentes disponibles no estaban en formatos fácilmente legibles por máquinas, lo que obligó a los investigadores a realizar una revisión manual exhaustiva. Como lo explicó Stella Biderman, una de las autoras del estudio: «Usamos herramientas automatizadas, pero todo fue anotado y verificado manualmente. Eso es muy difícil».
Además del reto técnico, el equipo tuvo que navegar entre laberintos legales para asegurarse de que cada pieza de información cumpliera con los requisitos de licencia adecuados. Un sitio web con apariencia abierta puede, en realidad, tener restricciones que limitan su uso para fines de entrenamiento de IA.
¿Y el resultado? Sorprendentemente competente
A pesar de todas las limitaciones, el modelo resultante logró rendimiento comparable al de modelos de hace un par de años, como el LLaMA 2-7B, lo cual es un hito importante. Aunque no alcanza los niveles de sofisticación de los modelos más avanzados de 2025, sirve como prueba tangible de que se puede avanzar sin infringir derechos.
No se publicaron comparativas directas con modelos actuales como GPT-4 o Claude, pero sí quedó claro que el rendimiento era suficiente para tareas estándar de lenguaje natural.
Lo que esto significa para la industria
Este trabajo no cambiará de inmediato el rumbo de las grandes empresas de IA, que buscan optimizar tiempo y recursos al entrenar con todo tipo de contenido disponible en internet. Pero sí socava un argumento central que han utilizado para justificar el uso indiscriminado de obras protegidas.
Cuando OpenAI declaró ante el parlamento británico que era “imposible” entrenar modelos avanzados sin material protegido, daba por sentado que no existía alternativa viable. Esta investigación demuestra que sí hay camino, aunque sea más difícil y costoso.
Un futuro más transparente está en juego
Este estudio también podría tener un impacto relevante en los debates legales y regulatorios. En un momento donde las demandas por el uso indebido de obras protegidas están en aumento, contar con evidencia de que se puede construir IA de forma ética es vital.
Para quienes desarrollan IA con responsabilidad, esta iniciativa marca un ejemplo a seguir. No se trata solo de cumplir con la ley, sino de construir tecnología con valores: respeto por los autores, transparencia en los datos y compromiso con la ética.
¿Vale la pena el esfuerzo?
Si bien el modelo es menos potente y más caro de producir, abre la puerta a una nueva línea de desarrollo centrada en el respeto y la sostenibilidad. Es como cocinar una comida desde cero en lugar de usar productos procesados: lleva más tiempo, pero sabes exactamente qué estás poniendo en el plato.
Quienes quieran apostar por modelos confiables y auditables pueden encontrar aquí una base sólida para construir. Y aunque este modelo no domine los rankings de benchmarks, domina en integridad y claridad.
Fuente: Whatsnew.com