GPT-5.4: el salto de OpenAI hacia agentes que usan tu ordenador por ti

Mundo, 8 de mar 2026 (ATB Digital).- OpenAI ha anunciado GPT-5.4 como una nueva iteración de su familia de modelos, con foco explícito en tres frentes: razonamiento, programación y trabajo “de oficina” con hojas de cálculo, documentos y presentaciones. La noticia, adelantada por The Verge a partir de información de la compañía, no se queda en una mejora incremental de respuestas: lo más llamativo es que llega como el primer modelo de OpenAI con uso nativo del ordenador, es decir, la capacidad de operar un equipo “a través” de la interfaz como lo haría una persona.

Para aterrizarlo con una imagen cotidiana, piensa en alguien que se sienta frente a tu portátil y, en lugar de dictarte instrucciones, abre una app, copia un dato, pega una cifra en una celda y navega por una web para completar un trámite. La promesa de GPT-5.4 es acercarse a ese comportamiento, sin depender de capas externas que traduzcan la intención del modelo en acciones.

El “uso nativo del ordenador” explicado sin humo
Cuando se habla de computer use o uso nativo del ordenador, la idea central es que el modelo no solo genera texto: también puede interpretar una captura de pantalla y actuar en consecuencia, emitiendo comandos equivalentes a teclado y ratón. Eso lo coloca en una categoría distinta a la del chatbot clásico, que vive dentro de una caja de texto y, como mucho, te sugiere pasos.

En la práctica, este enfoque permite que el sistema intente ejecutar tareas que están repartidas entre varias aplicaciones. Un ejemplo sencillo sería: localizar un correo con un adjunto, extraer cifras, abrir una hoja de cálculo y actualizar un resumen. Otro ejemplo, más cercano al día a día, sería entrar en un portal de reservas y completar campos repetitivos. No es magia: es automatización guiada por un modelo que “ve” el estado del entorno, decide el siguiente paso y lo ejecuta.

El matiz importante está en la palabra “nativo”. Según lo publicado, OpenAI lo plantea como una capacidad integrada del propio GPT-5.4, no como un añadido experimental separado. Eso suele traducirse en dos cosas: más consistencia al encadenar acciones y mejor rendimiento cuando la tarea exige alternar entre “pensar” y “hacer”.

De asistentes a agentes autónomos: lo que está en juego
El texto de The Verge enmarca el lanzamiento dentro de la carrera por el futuro “agentico”: una red de agentes autónomos que operan en segundo plano para completar trabajos complejos dentro de software y en la web. Aquí conviene separar expectativas realistas de aspiraciones de marketing.

Un asistente tradicional responde preguntas y te da opciones. Un agente intenta cerrar el círculo: define un plan, busca información, ejecuta pasos y vuelve con un resultado verificable. Es el equivalente a pasar de “te explico cómo hacerlo” a “lo hago contigo (o por ti) y te muestro el resultado”.

OpenAI ya había enseñado músculo en esa dirección con ChatGPT Agent, una propuesta de herramienta capaz de tomar control del ordenador para tareas prácticas, como buscar y comprar ingredientes para una receta. Lo nuevo con GPT-5.4 es que ese tipo de comportamiento deja de ser un “modo” puntual y pasa a estar alineado con el modelo de base.

Dónde se integra: API, Codex y ChatGPT
La estrategia de despliegue también dice mucho sobre a quién apunta el producto. Según la información compartida, OpenAI lleva GPT-5.4 a su API y a Codex, su herramienta orientada a programación, mientras que en ChatGPT pone el foco en su variante de razonamiento, GPT-5.4 Thinking.

Traducido a perfiles: la API y Codex suelen interesar a equipos que quieren construir flujos automatizados, integraciones con sistemas internos o asistentes que trabajen dentro de un producto. En cambio, ChatGPT es el escaparate masivo, donde la versión “Thinking” se presenta como la opción para tareas que requieren más deliberación, precisión y cadenas de decisión más largas.

Esta separación sugiere que OpenAI quiere cubrir dos necesidades distintas: por un lado, desarrolladores que necesitan un motor capaz de actuar sobre interfaces y herramientas; por otro, usuarios finales que valoran que el modelo razone con más cuidado, especialmente cuando hay ambigüedad o muchos pasos.

Navegación web, herramientas y APIs: la diferencia entre saber y hacer
Una parte clave del anuncio es la mejora en el uso del navegador y en la capacidad de llamar herramientas y APIs “de forma más precisa y eficiente”. En el día a día, ese detalle es menos vistoso que ver un cursor moverse, pero suele ser el que marca la diferencia entre una demo bonita y un sistema útil.

Cuando un modelo encadena herramientas, el problema no es solo “si puede” llamar a una API, sino si elige la correcta, si construye bien los parámetros, si interpreta la respuesta y si sabe cuándo insistir o cambiar de estrategia. Es como pedirle a alguien que haga una compra: no basta con que tenga tarjeta; también debe elegir el producto correcto, revisar el precio, confirmar la dirección y detectar si algo no cuadra.

Si GPT-5.4 mejora en esa coordinación, se vuelve más apto para automatizar tareas reales que mezclan navegación, extracción de información y manipulación de documentos. En entornos profesionales, esa mezcla es lo habitual: la información vive dispersa, en una pestaña del navegador, un PDF, un correo y una hoja de cálculo que alguien actualiza con prisas.

La promesa de ser “más factual”: qué significa el 33% menos de errores
OpenAI afirma que GPT-5.4 es su modelo “más factual” hasta la fecha y que sus afirmaciones individuales son un 33% menos propensas a ser falsas frente a GPT-5.2. El dato suena contundente, aunque conviene leerlo como una mejora estadística y no como una garantía absoluta.

La manera práctica de entenderlo es la siguiente: si antes el modelo era como ese compañero que suele acertar, pero a veces se confía y se inventa un detalle, ahora sería un compañero que se equivoca menos en ese tipo de “relleno” peligroso. En entornos de trabajo, esa reducción puede importar mucho, porque un error pequeño en un número o en un requisito puede propagarse como una mancha de café sobre un informe.

Esta mejora se conecta con otra afirmación del anuncio: GPT-5.4 sería mejor respondiendo preguntas que requieren recopilar información de múltiples fuentes, persistiendo en la búsqueda durante varias rondas, especialmente en consultas tipo “aguja en un pajar”. Aquí el valor no es solo encontrar un dato, sino resistir la tentación de contestar rápido cuando falta información, algo que históricamente ha sido un punto débil de los modelos de lenguaje.

Qué tareas podrían beneficiarse desde ya (y dónde aparecen los límites)
El tipo de trabajos que encajan bien con uso nativo del ordenador suelen compartir un patrón: muchos pasos pequeños, repetitivos, con cambios de contexto entre apps. Migrar datos de un panel web a una hoja de cálculo, consolidar resultados de varias páginas, preparar una presentación a partir de un documento y cifras dispersas, revisar un formulario y completar campos con información que ya existe en otro sitio.

El límite típico aparece cuando hay incertidumbre visual, interfaces cambiantes o decisiones que exigen criterio humano fino. Un agente puede avanzar muy bien en la parte mecánica y fallar en una confirmación, en un selector confuso o en un mensaje de error poco claro. También hay un límite de confianza: dejar que un sistema actúe por ti en un ordenador implica pensar en permisos, trazabilidad y control. No es lo mismo que redacte un borrador a que pulse “comprar” o envíe un documento.

Por eso, el escenario más razonable suele ser el “copiloto con manos”: un agente que ejecuta, pero con puntos de control, historial de acciones y posibilidad de intervención. Si OpenAI refuerza esas capas alrededor del modelo, la experiencia puede parecerse menos a “automatización ciega” y más a tener un asistente cuidadoso que te va diciendo qué hace y por qué.

Por qué este lanzamiento importa en la carrera de los agentes
El mercado está empujando hacia sistemas que no solo conversen, sino que operen. Lo interesante del enfoque de OpenAI es que intenta unificar capacidades: razonamiento, código, herramientas y acciones sobre el ordenador dentro de un mismo paraguas, con despliegue tanto para usuarios como para desarrolladores.

Si la promesa se sostiene en usos reales, GPT-5.4 puede convertir el concepto de agentes autónomos en algo más tangible: menos “mira cómo navega” y más “aquí está el informe terminado, con fuentes, cifras y el archivo listo para enviar”. Si no se sostiene, quedará como otro peldaño en una escalera que aún requiere barandilla: controles, verificación y diseño de producto para que el usuario no sienta que está entregando el volante a un copiloto impredecible.

Fuente: Wwwhatsnew

GPT-5.4: el salto de OpenAI hacia agentes que usan tu ordenador por ti

Sergio Aliaga

Correo Eléctronico:

VENTAS

Chile es el primer país de América libre de lepra

Los LLM y la nueva era del desenmascaramiento online: por qué tu seudónimo ya no es un escudo

Sergio Aliaga

Noticias relacionadas

Grok, la IA de Elon Musk, genera controversia por respuestas ofensivas

La IA será tan importante como el Internet según el CEO de Microsoft

El CEO de DeepMind advierte: la amenaza real de la inteligencia artificial no es el desempleo, sino su potencial para el daño