Mundo, 14 de jun 2025 (ATB Digital).- La investigación más reciente del equipo de inteligencia artificial de Apple ha generado un fuerte revuelo en el mundo de la tecnología. No porque se trate de una nueva funcionalidad para el iPhone o una actualización de Siri, sino por una publicación científica que cuestiona directamente las capacidades de razonamiento de los modelos de lenguaje más avanzados que lideran el mercado.
Modelos como ChatGPT-4o de OpenAI, Claude 3.7 de Anthropic y Gemini de Google han sido promocionados como sistemas capaces de razonar casi como un ser humano. Sin embargo, según este nuevo estudio, estaríamos ante una especie de espejismo cognitivo, en el que el rendimiento aparente de estos sistemas se desmorona cuando se enfrentan a problemas de mayor complejidad.
La ilusión del pensamiento: cuando la IA «razona» de forma engañosa
El corazón del estudio liderado por Samy Bengio, director de Investigación en Aprendizaje Automático de Apple, se centra en lo que los autores llaman la «ilusión del pensamiento». Es decir, que los modelos de lenguaje de frontera (FRMs, por sus siglas en inglés) dan la impresión de seguir un proceso lógico, cuando en realidad están reproduciendo patrones estadísticos aprendidos.
Estos modelos utilizan cadenas de razonamiento, conocidas como chain-of-thought, para resolver tareas paso a paso. Pero los investigadores encontraron que este proceso no es tan sólido como parece. Al usar entornos controlados con acertijos de complejidad progresiva, los modelos colapsaban completamente a partir de cierto nivel de dificultad, incluso cuando tenían suficiente capacidad de cálculo para continuar.
Un límite contraintuitivo: «pensar demasiado» los hace fallar
Uno de los hallazgos más llamativos del estudio es lo que los investigadores llaman el «límite de escalado contraintuitivo». Este fenómeno describe cómo los modelos comienzan a fallar no por falta de recursos o datos, sino por un exceso de complejidad que los lleva a una especie de «sobreanálisis paralizante».
Este tipo de comportamiento es comparable a una persona que intenta resolver un problema matemático sencillo pensando demasiado en variables innecesarias, lo que finalmente le hace cometer errores básicos. La IA, en estos casos, entra en un bucle de decisiones ineficientes y pierde precisión.
Críticas al sistema actual de evaluación de modelos
El estudio también lanza una crítica directa a las formas actuales de medir la inteligencia artificial. Según el equipo de Apple, los métodos de benchmarking están contaminados por fugas de datos y no permiten evaluar con claridad si el modelo realmente razona o simplemente ha memorizado soluciones.
Esta cuestión es crucial porque muchas veces se utilizan pruebas estándar, como resolver acertijos o responder preguntas lógicas, para demostrar avances en IA. Pero si los modelos ya han sido expuestos a problemas similares durante su entrenamiento, los resultados no reflejan una verdadera capacidad de generalización.
La inconsistencia en la resolución de problemas
Otra debilidad que los investigadores identificaron es la inconsistencia. Ante acertijos similares, los modelos ofrecían soluciones diferentes sin razón aparente. Esto sugiere que no están aplicando algoritmos explícitos, sino reglas implícitas y poco confiables.
Un ejemplo cotidiano podría ser pedirle a una persona que sume 27 + 46 en distintas ocasiones, y que cada vez diera un resultado diferente, sin cambiar el método ni las cifras. Algo así, en escala digital, es lo que están observando los investigadores.
¿Una crítica honesta o una estrategia defensiva?
El hecho de que esta crítica venga de Apple, una compañía que muchos consideran rezagada en la carrera de la IA, ha despertado sospechas. Algunos analistas apuntan a que podría tratarse de un intento de desacreditar a la competencia justo antes de lanzar sus propias soluciones con Apple Intelligence, que se espera lleguen próximamente a productos como el iPhone y MacBook.
No obstante, también es posible que la compañía esté simplemente apostando por un enfoque más cauteloso y riguroso, queriendo dejar claro que no todo lo que brilla en el mundo de la IA es oro. Si bien otras empresas priorizan la rapidez y el marketing, Apple podría estar construyendo una base más sólida a largo plazo.
Reflexiones para el futuro del desarrollo en IA
Lo cierto es que el estudio plantea una advertencia clara: los modelos de lenguaje actuales pueden estar tocando un límite funcional. Y esto ocurre mientras las inversiones en infraestructura, datos y energía para sostener estos sistemas se disparan a cifras astronómicas.
Si los hallazgos se confirman y generalizan, el sector tendrá que replantearse los fundamentos técnicos y filosóficos de la inteligencia artificial. Tal vez no sea suficiente seguir entrenando modelos más grandes y costosos. Quizá ha llegado el momento de enfocarse en nuevas arquitecturas que imiten mejor los procesos de razonamiento humano o en mecanismos de supervisión que corrijan las inconsistencias.
Este giro también podría abrir oportunidades para modelos más pequeños, eficientes y especializados, que no intenten ser todopoderosos, sino simplemente más fiables y comprensibles.
Fuente: https://wwwhatsnew.com/