Claude Opus 4.8 encabeza el ranking de IA
Anthropic lanzó Opus 4.8 y se ha colocado en lo más alto de los rankings, con especial ventaja en programación.
Anthropic presentó Claude Opus 4.8 el 28 de mayo de 2026 y el modelo se ha colocado a la cabeza de la clasificación general de inteligencia. Según índices independientes que agregan decenas de pruebas, ocupa el primer puesto con un Intelligence Index de 61. No es un único banco de pruebas, sino la media de muchos, lo que reduce el peso de cualquier examen aislado.
El dato que más llama la atención está en programación. Opus 4.8 alcanza un 69,2% en SWE-bench Pro, un banco que mide la resolución de problemas reales de software, no ejercicios de juguete. Resolver dos de cada tres tareas planteadas sobre repositorios reales es un listón alto para un modelo de propósito general.
Esa cifra explica por qué se ha convertido en una referencia para tareas de código y, sobre todo, para agentes. Un agente encadena muchos pasos sin supervisión humana, y cada error se propaga al siguiente. Cuando un modelo falla menos por paso, la fiabilidad de la cadena completa mejora de forma desproporcionada.
Entre las novedades funcionales destacan los flujos de trabajo dinámicos y la posibilidad de cambiar las instrucciones de sistema a mitad de conversación. En la práctica, una empresa puede ajustar el comportamiento del modelo sobre la marcha sin reiniciar la sesión ni reescribir todo el contexto. Es una palanca pensada para integraciones de producción, no para el usuario casual.
Conviene situar el liderazgo en su contexto. El mercado de modelos de primera línea se mueve en cuestión de semanas, y cada lanzamiento de un competidor puede reordenar la tabla. Que un modelo encabece hoy un índice no garantiza nada para el mes siguiente.
Por eso los rankings deben leerse como una foto del momento, no como un veredicto. Lo informativo no es tanto quién va primero en una fecha concreta, sino la tendencia: con qué frecuencia un fabricante vuelve a la cabeza y por cuánto margen. Un primer puesto efímero pesa menos que una mejora sostenida.
También importa recordar qué miden estos índices y qué no. Agregan capacidad en pruebas estandarizadas, pero no capturan coste, latencia, disponibilidad ni el ajuste a un caso de uso concreto. Para muchas empresas, esas variables pesan tanto como la puntuación bruta.
De cara a los próximos meses, la pregunta no es si Opus 4.8 seguirá en primer lugar, sino cómo responderán los rivales y si la ventaja en código y agentes se traduce en adopción real. La señal a vigilar es la repetición en lo alto de la tabla, no un único pico. Los datos de este artículo proceden de Fello AI.
Ver la fuente original ↗