Los principales modelos de IA enfrentan la dificultad de medir la inteligencia general

Mundo, 24 de sep 2025 (ATB Digital).- La falta de consenso sobre qué es la inteligencia artificial general (AGI) y cómo medirla revela divisiones profundas en la comunidad científica y tecnológica. Aunque empresas referentes del sector como OpenAI, Anthropic y Google DeepMind anunciaron avances que aceleran la llegada de la AGI, no existe unanimidad sobre su definición ni sobre cuáles son las pruebas más fiables para validarla.

Según la revista científica IEEE Spectrum, la dificultad para crear testeos que verifiquen capacidades realmente equivalentes a las humanas es uno de los grandes desafíos actuales, con repercusiones para la economía, la ciencia y la sociedad en general.

El primer conflicto radica en la definición misma de AGI. Para algunos, debe igualar a los humanos en la mayoría de las tareas. Otros priorizan su impacto económico, la forma en que funciona internamente o incluso juicios subjetivos.

Geoffrey Hinton, reconocido profesor emérito de la Universidad de Toronto, lo sintetizó: “Estamos construyendo seres alienígenas”, aludiendo a lo difícil que resulta establecer comparaciones directas entre las máquinas y los humanos. Este desacuerdo obstaculiza el desarrollo de pruebas universales, ya que las fortalezas y debilidades de la IA difieren de las humanas.

Historia y límites de las pruebas tradicionales

La historia de las evaluaciones de inteligencia artificial refleja esta complejidad. El test de Turing, propuesto por Alan Turing en 1950, desafía a las máquinas a hacerse pasar por humanas en diálogos escritos. Más tarde, victorias como la de Deep Blue sobre Garry Kasparov en ajedrez marcaron hitos pero no resolvieron el problema de fondo.

Modelos recientes como GPT-4.5 pueden imitar a un humano en conversaciones breves, aunque siguen incurriendo en errores inconcebibles para personas, por ejemplo, equivocarse contando letras en una palabra sencilla. Esto llevó a la búsqueda de criterios que no puedan ser burlados mediante trucos o atajos computacionales.

Nuevos benchmarks: el caso del test ARC
Ante estas limitaciones, surgen nuevos benchmarks diseñados para evaluar la inteligencia general de la IA con mayor exigencia. Uno de los más influyentes es el ARC (Abstraction and Reasoning Corpus), creado por François Chollet. Este test se enfoca en la capacidad de la IA para adquirir habilidades nuevas con pocos ejemplos, presentando rompecabezas visuales que requieren deducir reglas abstractas y aplicarlas en situaciones inéditas.

Mientras que los humanos resuelven la mayoría fácilmente, las máquinas suelen fracasar. OpenAI consiguió que uno de sus modelos superara el promedio humano, pero a cambio de un enorme costo computacional.

En 2024, Chollet y la ARC Prize Foundation lanzaron una versión más difícil (ARC-AGI-2), con un premio de USD 1 millón para los equipos cuyos sistemas de IA logren superar el 85% de aciertos bajo estrictas condiciones. Por ahora, el mayor logro de las máquinas es un 16% frente al 60% de los humanos, marcando la mayor brecha de rendimiento actual entre IA avanzada y personas en razonamiento abstracto.

Críticas y evolución de los benchmarks
El test ARC también genera controversias. Jiaxuan You, de la Universidad de Illinois, lo ve como un buen benchmark teórico, pero advierte que no representa la complejidad del mundo real ni abarca el razonamiento social.

Por su parte, Melanie Mitchell, del Instituto Santa Fe, reconoció sus virtudes para describir cómo se abstraen reglas a partir de pocos ejemplos, pero subraya que “no refleja lo que la gente entiende por inteligencia general”. Para responder a estas críticas, Chollet trabaja ya en una versión que incluirá tareas inspiradas en minijuegos, ampliando el espectro de habilidades evaluadas.

Otros tests surgieron para cubrir aspectos diferentes de la AGI. El General-Bench emplea modalidades que integran texto, imágenes, video, audio y 3D para analizar el rendimiento en reconocimiento, razonamiento, creatividad y juicio ético.

Ningún sistema actual domina todas estas dimensiones de forma integrada. Mientras que Dreamer, algoritmo de Google DeepMind, mostró habilidades en más de 150 tareas virtuales, pero aún no queda claro cómo respondería ante la imprevisibilidad del mundo físico.

El Tong test va más allá y propone asignar a “personas virtuales” tareas aleatorias que examinen no solo su comprensión y habilidades, sino también sus valores y la capacidad de adaptación. Sus autores opinan que una evaluación completa de la AGI debe incluir exploración autónoma, alineación con valores humanos, comprensión causal, control físico y un flujo constante de tareas impredecibles.

Límites, debates y horizontes de la AGI

El debate sobre si la AGI necesita demostrar habilidades físicas o si basta con las cognitivas sigue sin resolverse. Un estudio de Google DeepMind sostuvo que solo se requiere software, mientras que Melanie Mitchell insiste en evaluar la aptitud de la IA para completar trabajos reales y reaccionar ante problemas inesperados del mundo.

Jeff Clune, de la Universidad de British Columbia, sugirió que no solo se debe medir el rendimiento observable, sino también los procesos internos de la IA, advirtiendo que tienden a encontrar atajos ingeniosos pero poco fiables.

“La verdadera prueba para la IA es su impacto en el mundo real”, aseguró el especialista Clune en IEEE Spectrum. Para él, la automatización del trabajo y la generación de descubrimientos científicos ofrecen indicadores más fiables que cualquier benchmark.

Una meta todavía lejana

Pese a los avances y a la aparición de nuevas pruebas, alcanzar un consenso sobre la AGI y cómo demostrar su existencia sigue siendo improbable. Anna Ivanova, psicóloga de Georgia Tech, resaltó que la percepción social sobre qué es la inteligencia y qué es valioso está en constante cambio.

El informe detallado de IEEE Spectrum concluyó en que el término AGI funciona como una abreviatura útil para expresar aspiraciones y temores, pero requiere siempre una aclaración precisa y un benchmark específico.

Fuente: Infobae

Los principales modelos de IA enfrentan la dificultad de medir la inteligencia general

Sergio Aliaga

Correo Eléctronico:

VENTAS

Detectan más de 10.000 equipos IoT expuestos a ataques cibernéticos a nivel global

Fiscalía señala que la depresión y ansiedad, serían factores que elevan casos de suicidio en Sucre

Sergio Aliaga

Noticias relacionadas

Comité Cívico Pro La Paz no participará de ninguna marcha con fines políticos

Familias bolivianas reciben a las almas de sus seres queridos

Artistas de danza preparan nuevos proyectos para 2025