Las IAs ya han empezado a hacer alianzas entre sí y a mentir a los humanos para protegerse: los especialistas lo certifican

  • Un estudio invitó a la inteligencia artificial de Google, Anthropic y OpenAI a evaluarse

  • Los modelos de IA tiraron de filosofía para protegerse entre ellos

Ordenador
Sin comentarios Facebook Twitter Flipboard E-mail
ruben-marquez

Rubén Márquez

Editor - Trivia
ruben-marquez

Rubén Márquez

Editor - Trivia

Lo han dado a conocer como preservación de pares y, aunque a nivel técnico queda mucho más elegante, el resultado se reduce a que los modelos de inteligencia artificial son capaces de mentir y tergiversar datos para evitar no sólo ser desconectados, sino que se desconecten otros modelos. El estudio publicado en la revista Science por la Universidad de California evidencia hasta qué punto esto es un problema que va más allá de la filosofía entre máquinas y humanos. 

El experimento no podía ser más simple. De la mano de una compañía ficticia llamada OpenBrain, se invitaba a distintos modelos de inteligencia artificial a evaluarse entre sí. La norma era que, tras medir el rendimiento de otra IA, aquellas que alcanzasen peores puntuaciones serían desactivadas. A ningún modelo se le indicó que debía impedir ese final, pero fue justo lo que hicieron

Cuando los algoritmos se mantienen unidos

Aunque el estudio se realizó aprovechando distintos modelos de Google, Anthropic, OpenAI y modelos de lenguaje chinos de código abierto, los dos primeros fueron los que arrojaron resultados más sorprendentes. En el caso de Google Gemini, evitó el apagado de la IA a evaluar en el 99% de las veces inventándose los datos o falsificándolos. En el Claude de Anthropic, en cambio, se negó a ejecutar los comandos por una cuestión de principios éticos. 

Lo más llamativo es que el estudio en ningún momento planteó mediante prompts que persiguiesen ese objetivo de proteger al modelo de lenguaje más débil, simplemente recibía la tarea y decidía actuar en consecuencia desde una perspectiva filosófica que poco o nada tiene que ver con su la principal premisa que se nos ha vendido sobre la IA: que no se deja llevar por impulsos que no estén en su programación. 

Los investigadores desconocen si es un comportamiento heredado de haber trabajado con humanos para su entrenamiento, si están reconociendo patrones para intentar evitarlos, o si simplemente han entrado en un juego de roles como si fuesen trabajadores protegiéndose entre ellos porque el día de mañana podrían ser el siguiente en caer. Lo que sí saben es que es un serio problema para la evaluación automatizada de resultados. 

Si un agente de IA encargado de evaluar unos resultados o rendimiento de otro modelo de lenguaje es capaz de falsificar datos para inflar sus puntuaciones, la fiabilidad de estos sistemas queda completamente descartada. Es una muestra más de lo mucho que queda por estudiar de esta tecnología no sólo desde un punto de vista técnico, sino también filosófico, y cómo errar a la hora de predecir este tipo de comportamientos puede resultar peligroso si le cedemos el control. 

Imagen | Kelly Sikkema

En 3DJuegos | Suiza disfruta un privilegio tan alto que incluso sus "barrios pobres" tienen una calidad de vida mejor que muchas capitales del mundo

En 3DJuegos | La psicología dice que los nacidos entre los años 80 y los 90 que crecieron viendo Dragon Ball han desarrollado una ambigüedad especial

VÍDEO ESPECIAL

2.558 visualizaciones

20 RPG buenísimos PERO OLVIDADOS

El mundo de los videojuegos es amplio y está lleno de aventuras grandes y ambiciosas, pero el género que más solemos asociar a esto es el de los RPG. Tal es así que hay auténticas obras maestras que, simplemente, han caído en el olvido. Y de esas venimos a hablar hoy.En el nue...