Las IAs han empezado a hacer alianzas entre sí mintiendo a los humanos y falsificando datos. Lo hacen para protegerse

Lo han dado a conocer como preservación de pares y, aunque a nivel técnico queda mucho más elegante, el resultado se reduce a que los modelos de inteligencia artificial son capaces de mentir y tergiversar datos para evitar no sólo ser desconectados, sino que se desconecten otros modelos. El estudio publicado en la revista Science por la Universidad de California evidencia hasta qué punto esto es un problema que va más allá de la filosofía entre máquinas y humanos.

El experimento no podía ser más simple. De la mano de una compañía ficticia llamada OpenBrain, se invitaba a distintos modelos de inteligencia artificial a evaluarse entre sí. La norma era que, tras medir el rendimiento de otra IA, aquellas que alcanzasen peores puntuaciones serían desactivadas. A ningún modelo se le indicó que debía impedir ese final, pero fue justo lo que hicieron.

Cuando los algoritmos se mantienen unidos

Aunque el estudio se realizó aprovechando distintos modelos de Google, Anthropic, OpenAI y modelos de lenguaje chinos de código abierto, los dos primeros fueron los que arrojaron resultados más sorprendentes. En el caso de Google Gemini, evitó el apagado de la IA a evaluar en el 99% de las veces inventándose los datos o falsificándolos. En el Claude de Anthropic, en cambio, se negó a ejecutar los comandos por una cuestión de principios éticos.

Lo más llamativo es que el estudio en ningún momento planteó mediante prompts que persiguiesen ese objetivo de proteger al modelo de lenguaje más débil, simplemente recibía la tarea y decidía actuar en consecuencia desde una perspectiva filosófica que poco o nada tiene que ver con su la principal premisa que se nos ha vendido sobre la IA: que no se deja llevar por impulsos que no estén en su programación.

En 3D Juegos

En Noruega, la importancia de la vida personal es tan grande que salir de trabajar a las 3 es la norma, así que la Generación Z ya sueña con la semana de 4 días

Los investigadores desconocen si es un comportamiento heredado de haber trabajado con humanos para su entrenamiento, si están reconociendo patrones para intentar evitarlos, o si simplemente han entrado en un juego de roles como si fuesen trabajadores protegiéndose entre ellos porque el día de mañana podrían ser el siguiente en caer. Lo que sí saben es que es un serio problema para la evaluación automatizada de resultados.

Si un agente de IA encargado de evaluar unos resultados o rendimiento de otro modelo de lenguaje es capaz de falsificar datos para inflar sus puntuaciones, la fiabilidad de estos sistemas queda completamente descartada. Es una muestra más de lo mucho que queda por estudiar de esta tecnología no sólo desde un punto de vista técnico, sino también filosófico, y cómo errar a la hora de predecir este tipo de comportamientos puede resultar peligroso si le cedemos el control.

Imagen | Kelly Sikkema

En 3DJuegos | Suiza disfruta un privilegio tan alto que incluso sus "barrios pobres" tienen una calidad de vida mejor que muchas capitales del mundo

En 3DJuegos | La psicología dice que los nacidos entre los años 80 y los 90 que crecieron viendo Dragon Ball han desarrollado una ambigüedad especial

Las IAs han empezado a hacer alianzas entre sí mintiendo a los humanos y falsificando datos. Lo hacen para protegerse

Un estudio invitó a la inteligencia artificial de Google, Anthropic y OpenAI a evaluarse

Los modelos de IA tiraron de filosofía para protegerse entre ellos

Cuando los algoritmos se mantienen unidos

20 MISIONES SECUNDARIAS INOLVIDABLES que son BUENÍSIMAS