No existe un solo modelo de inteligencia artificial capaz de competir contra ChatGPT, el gigante de OpenAI. Gracias a la inversión de la compañía norteamericana, el chatbot conversacional ha protagonizado noticias de todo tipo, ya que no solo consiguió salvar la vida de un hombre, sino que dejó sin trabajo a un auxiliar jurídico a raíz de una serie de citas inexistentes que compartió como veraces. No obstante, OpenAI sigue centrada en evolucionar sus modelos de IA y, como consecuencia directa de ello, hoy nos toca profundizar en o3-pro, el siguiente paso en la cadena evolutiva de ChatGPT.
Como señala Ars Technica, OpenAI estrenó o3-pro, una versión avanzada centrada en razonamiento simulado que ya está disponible para los suscriptores de pago de ChatGPT. Este modelo toma el lugar de o1-pro en la selección de modelos, ya que cuenta con mejoras determinantes en matemáticas, ciencia y programación. Además, también incluye herramientas como búsqueda web, análisis de archivos e imágenes e, incluso, ejecución del código Python, un aspecto muy interesante tanto para los programadores como para las compañías. Sin embargo, tantos avances ponen el foco sobre una cuestión: ¿dónde está el límite de la IA?
OpenAI quiere revolucionar el sector con o3-pro
Además de todo lo mencionado, otro de los aspectos más interesantes de este lanzamiento es la reducción de precios del modelo o3-pro respecto al o1-pro. Según los datos recogidos de Ars Technica, esta reducción es de un 87% tanto en el terreno de los input (18,40 euros por un millón de tokens) como en el de los output (73,60 euros por un millón de tokens). A su vez, esto terminó afectando al modelo o3 estándar, una versión que redujo su precio hasta un 80% en lo que a eficiencia/rendimiento se refiere.
Sin embargo, o3-pro ha puesto sobre la mesa uno de los principales problemas de OpenAI: la evolución de sus modelos no elimina los errores previos. Aunque este es uno de sus enfoques principales, la firma está más centrada en reducir el consumo de recursos que en mejorar las prestaciones de sus modelos de inteligencia artificial. De hecho, aunque hayan vendido o3-pro como un modelo capaz de sacar partido al razonamiento simulado, la existencia de esto no implica pensamiento lógico real, sino el uso de más recursos computacionales durante la inferencia. Por consiguiente, sus datos en diferentes campos reflejan lo siguiente:
- 93% de precisión en el AIME 2024 (matemáticas).
- 84% de precisión en GPQA Diamond (preguntas de ciencia a nivel de doctorado).
- Elo de 2748 en Codeforces (programación).
Estos avances, según indica la publicación original, se deben a técnicas como "el pensamiento en voz alta", una opción que le permite ir compartiendo paso a paso los razonamientos que sigue (similar al experimento de Claude con Pokémon Rojo). No obstante, la misma noticia señala que varios estudios hacen hincapié en que o3-pro sigue funcionando como un sistema de reconocimiento de patrones, una situación que demuestra que la IA no es capaz de razonar por sí misma, sino que sigue los pasos de todos aquellos datos con los que han sido entrenadas.
Un ejemplo podría ser el de la Torre de Hanoi, un rompecabezas matemático que consigue poner contra las cuerdas al modelo de OpenAI. Según revelan los investigadores, las limitaciones podrían estar relacionadas con su baja capacidad para corregir errores o detectar contradicciones, ya que no pueden analizar estos dos parámetros en su propio razonamiento. Así, aunque o3-pro sea un modelo más barato y eficaz para problemas conocidos, vuelve a poner el foco sobre uno de los principales problemas de la inteligencia artificial: deben revisar los resultados de forma cuidadosa.
Apple tampoco se fía de la IA
Una de las investigaciones centradas en la eficiencia del razonamiento de la IA está firmada por Apple, compañía que se encuentra trabajando en el futuro de la marca. En otra publicación, Ars Technica recoge que los investigadores de la compañía publicaron un estudio que cuestiona si los modelos de IA son capaces de razonar o solo imitan patrones del entrenamiento. En él, compararon modelos como o1, o3, DeepSeek-R1 y Claude 3.7, utilizando puzzles clásicos como la ya citada Torre de Hanoi u otros desafíos de la talla de las damas, el cruce de río y la construcción de bloques.
Según los resultados del estudio, los modelos fallan de forma flagrante en problemas novedosos que requieren razonamiento sistemático. De esta forma, si se somete a un modelo de IA a una prueba que no ha visto antes, solo lograrán salir con éxito el 25% de las veces. De hecho, ninguno fue capaz de obtener una puntuación perfecta (resolver todos los desafíos de forma consecutiva en un mismo intento) a pesar de que realizaron casi 200 intentos, siendo uno de los ejemplos más llamativo el de Claude: aunque obtuvo la solución en la torre de Hanoi, no pudo superar con éxito una tarea tan sencilla como el cruce del río.
Tras extraer sus conclusiones, el estudio resume cuáles son sus impresiones: "cuando el problema es más complejo, los modelos razonan menos". De hecho, esta situación ni siquiera cambia cuando se les proporciona un algoritmo correcto, ya que los modelos no mejoran su rendimiento ante la ausencia de lógica real. Por ello, Gary Marcus (investigador especializado en diferentes campos) señaló que esta situación es devastadora para los modelos de lenguaje, mientras que otras voces como Kevin Bryan (economista) quisieron aportar otro punto de vista: "Los modelos están entrenados para evitar cálculos excesivos, esto no implica que no sean capaces".
Bryan, por su parte, sugiere que la limitación puede guardar relación con el diseño, ya que la presencia de algunas técnicas reducen el esfuerzo computacional. Sea como fuere, el propio estudio de Apple reconoce sus limitaciones y, además, asegura que estos puzzles no representan todos los casos de razonamiento. Aún así, el resultado de su investigación deja patente que, a pesar de los intentos de las compañías más punteras del sector, los modelos actuales no alcanzan el razonamiento general, sino que están estrechamente relacionados a los datos que utilizan para mejorar sus prestaciones.
Imagen principal de 3DJuegos
En 3DJuegos | Mark Zuckerberg cambia de estrategia: adiós al metaverso y la IA tradicional, hola a la búsqueda de la "superinteligencia"
Ver 1 comentarios