GPT-5.5: benchmarks reales frente a Claude Opus 4.7 y Gemini 3.1

OpenAI ha lanzado esta mañana GPT-5.5, su nuevo modelo de lenguaje, internamente conocido como «Spud». El nombre puede sonar humilde, pero la realidad es que viene a disputar el liderazgo que Claude Opus 4.7 había tomado brevemente en los rankings de benchmarks públicos.

El lanzamiento confirma la velocidad de iteración actual en el sector: en menos de 12 meses, OpenAI ha sacado GPT-5.3, 5.4, y ahora 5.5. «Los últimos dos años han sido sorprendentemente lentos», declaró Jakub Pachocki, chief scientist de OpenAI. La carrera no frena.

Qué es GPT-5.5 y qué lo diferencia de GPT-5.4

El modelo llega en dos variantes: GPT-5.5 (general, para tareas cotidianas) y GPT-5.5 Pro (para entornos de alta exigencia: investigación legal, análisis financiero, ciencia). La distinción no es solo de marketing: el modo Pro incluye optimizaciones de latencia específicas y una lógica especializada para razonamiento multi-paso.

Greg Brockman, cofundador y presidente de OpenAI, lo resumió así en la presentación a prensa:

«Es un pensador más rápido y más preciso con menos tokens. Lo que hace especial a este modelo es cuánto puede hacer con menos guía. Puede ver un problema ambiguo y deducir qué necesita hacer a continuación.»

La eficiencia es el avance técnico más relevante. OpenAI sirvió el modelo en sistemas NVIDIA GB200 y GB300 NVL72, utilizando algoritmos heurísticos de particionado de carga (escritos por el propio modelo) que incrementaron la velocidad de generación de tokens en más del 20% respecto a GPT-5.4, sin aumentar la latencia por token.

El foco está en la agenticidad: manejo autónomo de tareas complejas en sistemas operativos, depuración de código, navegación entre documentos y spreadsheets sin intervención humana.

Los benchmarks, sin filtros

OpenAI publicó los datos de comparación contra sus rivales directos: Claude Opus 4.7 (Anthropic) y Gemini 3.1 Pro (Google). Aquí los números reales:

Benchmark	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7	69.4	68.5
GDPval (wins/ties)	84.9	80.3	67.3
ARC-AGI-2 (Verified)	85.0	75.8	77.1
FrontierMath Tier 1–3	51.7	43.8	36.9
FrontierMath Tier 4	35.4	22.9	16.7
OfficeQA Pro	54.1	43.6	18.1
CyberGym	81.8	73.1	—
OSWorld-Verified	78.7	78.0	—
BrowseComp	84.4	79.3	85.9
SWE-bench Pro (Public)	58.6	64.3	54.2
Humanity’s Last Exam (sin tools)	43.1	46.9	—

Fuente: OpenAI / VentureBeat, 23 de abril de 2026

Lo que los datos revelan: GPT-5.5 domina en agencia, pierde en razonamiento puro

La lectura superficial —»GPT-5.5 gana en 14 benchmarks»— es la que OpenAI quiere que hagas. La lectura real es más interesante.

GPT-5.5 es claramente el mejor modelo disponible públicamente para tareas agénticas: uso de terminal, computer use, matemáticas de frontera, trabajo de oficina automatizado. La diferencia con Opus 4.7 en Terminal-Bench 2.0 (82.7 vs 69.4) y OfficeQA Pro (54.1 vs 43.6) es significativa.

Pero hay dos excepciones notables que conviene no ignorar:

SWE-bench Pro: Claude Opus 4.7 sigue siendo el mejor modelo público para tareas de ingeniería de software realistas, con 64.3% vs 58.6% de GPT-5.5. Para equipos de desarrollo que usan modelos para codificación profesional real, Opus 4.7 mantiene la ventaja.

Humanity’s Last Exam (sin herramientas): En razonamiento multidisciplinar puro, sin acceso a búsqueda ni código, Opus 4.7 supera a GPT-5.5 Pro (46.9% vs 43.1%). El modelo de Anthropic sigue siendo más capaz en comprensión académica profunda.

La conclusión es clara: el posicionamiento de GPT-5.5 es deliberado. OpenAI apuesta por la agenticidad y el computer use como el futuro inmediato de la IA aplicada a empresa, y ahí gana. No es casualidad que Brockman hable explícitamente de un «super app» que combine ChatGPT, Codex y un browser de IA en una sola superficie.

El elefante en la sala: Mythos Preview

En algunos benchmarks aparece Claude Mythos Preview, el modelo de ciberseguridad de Anthropic que no está disponible públicamente. Los números son relevantes: Mythos supera a GPT-5.5 en SWE-bench Pro (77.8%), BrowseComp (86.9%) y Humanity’s Last Exam (56.8%).

GPT-5.5 sí supera a Mythos en Terminal-Bench 2.0 (82.7 vs 82.0), aunque la diferencia es estadísticamente irrelevante.

La comparación es parcialmente tramposa: Mythos es un modelo restringido a gobiernos y partners seleccionados por sus riesgos en ciberseguridad. No está en el mercado. Que GPT-5.5 le pise los talones en ese benchmark es notable; que Anthropic tenga un modelo superior en varios otros pero lo mantenga deliberadamente fuera del mercado público dice mucho sobre hacia dónde va la IA de frontera.

Disponibilidad y precio: la parte que importa a los desarrolladores

GPT-5.5 está disponible hoy para suscriptores de ChatGPT Plus ($20/mes), Pro ($100–$200/mes), Business y Enterprise. GPT-5.5 Pro solo desde el tier Pro en adelante.

Hay una restricción importante: el acceso por API no está disponible todavía. OpenAI indica que llegará «muy pronto», pero de momento solo está accesible desde ChatGPT. Para equipos que integran modelos en producción, esto es un freno real. GPT-5.4 sigue activo a la mitad del coste de API.

Lo que esto significa para los próximos meses

El ritmo de publicaciones: GPT-5.3, 5.4, y ahora 5.5 en menos de seis meses, confirma que estamos en un ciclo de iteración extremadamente comprimido. OpenAI, Anthropic y Google están liberando modelos de frontera prácticamente cada cuatro a seis semanas.

Para equipos de desarrollo y empresas, la pregunta ya no es «¿qué modelo es el mejor?» sino «¿para qué tarea específica?» La segmentación se está volviendo más granular: GPT-5.5 para agentes y computer use, Opus 4.7 para codificación profesional y razonamiento denso, Gemini 3.1 Pro con una ventaja específica en búsqueda web (BrowseComp: 85.9%).

La guerra de los LLM no ha terminado. Acaba de entrar en su fase más interesante.

Fuentes: TechCrunch · VentureBeat · OpenAI Blog