De perderse en un juego de Pokémon a ser casi la mejor del momento. Así ha mejorado la IA de Claude respecto a sus competidores

Este nuevo modelo ha superado ampliamente a rivales como OpenAI o Google en el terreno de la codificación

1 octubre 2025, 19:00

Actualizado 2 octubre 2025, 08:10

Alberto Moral

Editor - Guías

La familia crece, es decir, la de las IAs. Desde esta semana hay una nueva jugadora sentada a la mesa: Claude Sonnet 4.5, un nuevo modelo de lenguaje pensante desarrollado con Anthropic y cuyos desarrolladores la han calificado como el "modelo más potente hasta la fecha". Si bien que salga una nueva inteligencia artificial -o una actualización de una existente- ya no es algo tan novedoso como hace unos años, ésta en concreto ha tenido un estreno por la puerta grande, y se debe a que será capaz de complacer a ciertos directivos que no quieran descansos en sus proyectos.

Sonnet 4.5 ha sido sometida a sus primeras pruebas reales y ha conseguido funcionar durante más de 30 horas realizando operaciones y tareas complejas compuestas de varios pasos. Esta cifra la pone por encima otras IAs que ya están establecidas entre los usuarios, como Open AI o Google Gemini, las cuales sufren cierta degradación en sus cálculos si trabajan con grandes cantidades de datos durante cantidades similares de tiempo.

La IA que se perdió en Pokémon podría ponerse en cabeza

Resulta curioso recordar cómo, en marzo de este mismo año, la versión 3.7 de Claude Sonnet tenía dificultades para jugar una partida de Pokémon Amarillo, y ahora está asombrando a los expertos en IA -como Simon Wilson, colaborador habitual de Ars Technica- con sus progresos. El desarrollador de software ha señalado en su blog que se siente impresionado con el nuevo modelo. Afirma que sus "impresiones iniciales son mucho mejores que las que tuve con GPT-5-Codex, el cual era mi modelo favorito hasta hace poco", concretamente desde que se le proporcionó una copia de Sonnet 4.5 para probarla.

Por aportar unos cuantos datos numéricos a estas sensaciones, en algunos "benchmarks" a los que se suele someter a estos modelos de lenguaje, Claude 4.5 ha conseguido una puntuación de 77.2 puntos porcentuales en bancos de rendimiento como el SWE-bench Leaderboards, especializados en plantearles problemas de codificación para que los resuelvan, con un margen de ventaja de entre 5 y 10 puntos por encima de sus principales competidores. Otras pruebas que se han incluido en la evaluación han sido la OSWorld (para tareas de computación); evaluaciones en comprensión matemática con AIME 2024; o el test MMLU que evalúa la comprensión de la IA de otros idiomas que no sea el nativo en el que está programada. En todos ellos, Claude Sonnet 4.5 ha superado a ChatGPT y Gemini.

Imagen: Anthropic.com

Pero el que para muchos era la gran prueba de fuego el Vals AI's Finance Agent Benchmark, el más reciente de todos estos tests y que pone a prueba las capacidades de la IA evaluando la capacidad de los agentes para realizar las tareas que se esperan de un analista financiero, aunque uno de nivel básico, todo sea dicho. En consonancia con el resto de pruebas, Claude Sonnet 4.5 ha sacado la nota más alta, superando la puntuación de precisión por encima del 50%, una que ninguno de los otros modelos (con excepción del modelo Opus 4.1) alcanzó, y que sin duda será el principal incentivo de muchos directivos o responsables de proyectos para escogerla como apoyo para sus equipos de trabajo.

Una IA que no te dora la píldora

Además, Anthropic no está perdiendo el tiempo con lo que su flamante modelo de lenguaje puede ofrecer al público. Recientemente, ha implementado una serie de mejoras en las características auxiliares de Claude Sonnet, como por ejemplo parámetros para la ejecución del código o la creación de archivos a petición del usuario vía la interfaz de su web u otras apps dedicadas que la utilicen, e incluso la posibilidad de guardar el progreso en un proyecto o de revertirlo a un estado anterior - siempre y cuando estos cuenten con alguno de los modelos de suscripción a Claude.

En 3D Juegos

De "hay que ser estúpido" a imperio de billones de euros: la predicción de 2017 sobre Bitcoin que falló todo, menos lo más banal

Pero lo más reseñable es su utilidad y cómo mantiene al usuario con los pies sobre la Tierra. Mientras que otros modelos de lenguaje han mostrado trazas de "adulación" respecto a los razonamientos que los usuarios les planteaban en los prompts, incluso cuando estos son erróneos o incluso peligrosos. Los desarrolladores de Sonnet 4.5 mantienen que su nuevo modelo tiene una tendencia reducida a evitar esas respuestas agasajadoras. Y vistos ciertos casos en los que algunas IAs han puesto en problemas a sus usuarios por la confianza execsiva en ellas, este es probablemente el mejor dato de esta actualización de Claude Sonnet.

Imagen de portada: 3DJuegos

En 3DJuegos | Llevo más de 300 días sin desconectar el portátil de la corriente, ¿estoy dañando la batería?

En 3DJuegos | China ha visto el último error de EE.UU. y ha decidido dar un giro de 180º: los visados definirán la industria tecnológica

Ver todos los comentarios en https://www.3djuegos.com

VER 0 Comentario

4.144 visualizaciones

20 MISIONES SECUNDARIAS INOLVIDABLES que son BUENÍSIMAS

Las grandes campañas no lo son todo, a veces queremos desconectar y disfrutar de ese contenido que no es necesario para terminar la historia de un videojuego. Acompañando estas historias solemos tener misiones secundarias, y hay algunas que son realmente buenas e inolvidables....