GPT-5.4: el nuevo modelo de OpenAI que ya puede usar una computadora de forma autónoma

El nuevo modelo de OpenAI marca un paso hacia los agentes autónomos. GPT-5.4 puede analizar la pantalla, usar aplicaciones y completar tareas en herramientas como hojas de cálculo o documentos, ampliando el rol de la inteligencia artificial en el trabajo digital.
OpenAI lanza un nuevo plan Pro más accesible y refuerza la competencia en el mercado de asistentes avanzados
OpenAI lanza un nuevo plan Pro más accesible y refuerza la competencia en el mercado de asistentes avanzados
Compartir nota:

La evolución de la inteligencia artificial dio un paso decisivo hacia los agentes digitales autónomos. OpenAI presentó GPT-5.4, su modelo más avanzado hasta el momento, capaz de operar una computadora de forma directa: abrir aplicaciones, navegar interfaces gráficas, ejecutar comandos y completar tareas complejas sin intervención humana constante.

La novedad marca un cambio significativo en la forma en que interactuamos con la IA. Hasta ahora, los modelos generativos podían redactar textos, analizar datos o escribir código. Con GPT-5.4, la inteligencia artificial comienza a actuar dentro del entorno digital, manipulando software y herramientas de trabajo como lo haría un usuario humano.

Según la compañía, en su anuncio Presentamos GPT‑5.4, se trata de su primer modelo generalista con capacidades nativas de “computer use”, diseñado para permitir que desarrolladores creen agentes capaces de completar tareas reales en aplicaciones, sitios web y sistemas profesionales.

GPT-5.4 permite que la inteligencia artificial interactúe directamente con computadoras, abriendo aplicaciones, navegando interfaces gráficas y ejecutando tareas complejas sin intervención humana.
GPT-5.4 permite que la inteligencia artificial interactúe directamente con computadoras, abriendo aplicaciones, navegando interfaces gráficas y ejecutando tareas complejas sin intervención humana.

Cómo funciona una IA que puede usar una computadora

La base tecnológica de GPT-5.4 es un sistema que combina visión, razonamiento y ejecución de acciones. En lugar de depender exclusivamente de APIs específicas, el modelo puede observar la pantalla mediante capturas y decidir qué hacer a continuación.

El proceso funciona en un ciclo continuo:

  1. El modelo analiza una captura de pantalla del entorno digital.
  2. Interpreta la interfaz gráfica (botones, campos de texto, menús).
  3. Genera acciones como mover el mouse, hacer clic o escribir.
  4. El sistema ejecuta la acción y devuelve una nueva captura de pantalla.

Este flujo permite que la IA interactúe con prácticamente cualquier software, ya que reproduce el comportamiento de un usuario frente al teclado y el mouse.

Gracias a este enfoque, los agentes basados en GPT-5.4 pueden realizar tareas como:

  • Completar formularios en páginas web
  • Organizar información en hojas de cálculo
  • Gestionar documentos o presentaciones
  • Automatizar flujos de trabajo empresariales
  • Integrar datos de múltiples aplicaciones

La tecnología deriva de investigaciones previas de OpenAI sobre agentes que utilizan computadoras, capaces de interpretar píxeles de pantalla y ejecutar acciones con teclado y cursor virtual.

Un modelo pensado para tareas profesionales

Uno de los objetivos centrales del lanzamiento es mejorar la productividad en entornos laborales. GPT-5.4 está optimizado para interactuar con herramientas comunes en empresas, especialmente aplicaciones de oficina.

Entre los escenarios de uso más destacados se encuentran:

  • Automatización en Excel y Google Sheets
  • Redacción y edición de documentos
  • Gestión de datos en aplicaciones empresariales
  • Orquestación de múltiples herramientas en un mismo flujo

La integración con hojas de cálculo y documentos es particularmente relevante para sectores como finanzas, marketing, análisis de datos y desarrollo de software.

Además, el modelo puede combinar estas acciones con capacidades avanzadas de programación, permitiendo generar scripts o automatizaciones más complejas dentro del sistema.

Una ventana de contexto mucho más grande

Otra de las mejoras clave de GPT-5.4 es su capacidad de memoria contextual.

La versión disponible en API admite hasta un millón de tokens de contexto, lo que permite trabajar con grandes volúmenes de información o ejecutar tareas de larga duración sin perder coherencia.

En la práctica, esto significa que un agente basado en este modelo puede:

  • Analizar extensos documentos o bases de datos
  • Mantener seguimiento de procesos largos
  • Integrar múltiples fuentes de información en una misma tarea

Esta característica resulta fundamental para escenarios de automatización compleja, donde los sistemas deben planificar y ejecutar múltiples pasos antes de completar un objetivo.

Menos errores y mayor precisión

OpenAI también asegura que GPT-5.4 mejora notablemente la precisión frente a versiones anteriores.

Según datos difundidos por la empresa:

  • Reduce en 33% las afirmaciones incorrectas respecto a GPT-5.2
  • Mejora en 18% la generación de respuestas completas
  • Presenta avances significativos en programación y razonamiento

Estas mejoras responden a una optimización del modelo para tareas de alta complejidad, especialmente aquellas que combinan lógica, ejecución de herramientas y análisis de información.

El objetivo es acercar a la inteligencia artificial a un rol más activo dentro del trabajo digital: no solo responder preguntas, sino resolver tareas de principio a fin.

Disponibilidad y acceso

GPT-5.4 comenzó a desplegarse en el ecosistema de OpenAI con distintas variantes.

Entre las principales modalidades se encuentran:

  • GPT-5.4 Thinking: versión optimizada para razonamiento interactivo en ChatGPT
  • GPT-5.4 Pro: versión de alto rendimiento disponible vía API
  • Integración con herramientas de desarrollo como Codex

El modelo ya está disponible para usuarios de ChatGPT Plus, Team y Pro, mientras que los desarrolladores pueden acceder a través de la API de OpenAI.

OpenAI asegura que GPT-5.4 reduce un 33 % las afirmaciones incorrectas y mejora un 18 % la generación de respuestas completas frente a GPT-5.2.
OpenAI asegura que GPT-5.4 reduce un 33 % las afirmaciones incorrectas y mejora un 18 % la generación de respuestas completas frente a GPT-5.2.

En paralelo, la compañía confirmó que el modelo anterior GPT-5.2 continuará disponible hasta junio de 2026, permitiendo una transición gradual para desarrolladores y empresas.

El paso hacia los agentes autónomos

Más allá de las mejoras técnicas, el lanzamiento de GPT-5.4 refleja una tendencia más amplia dentro del sector tecnológico: el avance de los agentes de inteligencia artificial autónomos.

Estos sistemas no se limitan a responder preguntas, sino que pueden:

  • Planificar tareas complejas
  • Ejecutar acciones en software real
  • Evaluar resultados y corregir errores
  • Coordinar múltiples herramientas digitales

Para muchos analistas, esta evolución representa el comienzo de una nueva etapa en la IA aplicada al trabajo digital, donde los asistentes virtuales funcionarán más como colaboradores operativos que como simples chatbots.

Sin embargo, el desarrollo también plantea desafíos importantes en términos de seguridad, control y supervisión humana. El acceso de la IA a sistemas informáticos abre debates sobre privacidad, riesgos de automatización excesiva y posibles vulnerabilidades.

Leer más

Compartir nota:

Publicaciones Relacionadas

Scroll to Top