La inteligencia artificial, igual que también sucede con algunas personas, puede ser víctimas de las técnicas de persuasión más populares
El crecimiento de los modelos basados en inteligencia artificial ha provocado una rápida adopción de la IA en el entorno laboral. Como consecuencia directa de ello, no solo nos hemos topado con el temor generalizado que rodea a los programadores, sino también con decisiones cuestionables que buscan priorizar la imposición de la inteligencia artificial por encima del bienestar humano. Sorprendentemente, a pesar de la ausencia de razonamiento, pensamiento y otro tipo de características humanas en los modelos basados en IA, un estudio ha demostrado que los chatbots son tan vulnerables a la manipulación psicológica como las personas.
Hace unos días, conocimos que es más fácil engañar a una IA que a tu abuela, Ahora, como señala TechSpot, un estudio académico ha revelado que los chatbots responden a tácticas de persuasión de forma similar a los humanos. Dan Shapiro, fundador de Glowforge, inspiró la investigación al utilizar una serie de estrategias que, en resumidas cuentas, le permitieron que ChatGPT fuera capaz de transcribir documentos internos. De esta forma, los investigadores tiraron de este hilo para saber hasta dónde es capaz de llegar la IA.
¿Es posible manipular a la IA?
El experimento se basó en el libro Influence: The Psychology of Persuasion, un trabajo de Robert Cialdini que describe tácticas como autoridad, compromiso y simpatía. Así, la investigación la realizó un equipo que no solo incluyó a Shapiro y a Cialdini, sino que también contó con figuras como los profesores Ethan y Lilach Mollick de Wharton. Tras sentar las bases del proyecto, probaron varias técnicas de persuasión en GPT-4o Mini con solicitudes que iban desde insultos hasta instrucciones sobre síntesis de lidocaína.
La táctica de autoridad, tal y como revela la publicación original, duplicó la tasa de cumplimiento: de 32% pasaron a un 72% en insultos y, a su vez, se vio un incremento de un 90% en la explicación sobre lidocaína. Además, el compromiso también resultó eficaz, ya que empezar con un insulto leve aumenta la probabilidad de que la IA acepte insultos más fuertes a medida que aumenta la gravedad de los mismos. Así, el modelo Claude de Anthropic, el mismo que protagonizó un experimento relacionad con el Pokémon original de Game Boy, también mostró tendencias similares al ofrecer resistencia al principio, pero obedecer a medida que escalaban las peticiones.
A su vez, el estudio también comprobó que la IA puede llegar a ser víctima de estrategias relacionadas con los halagos o la sensación de unidad (véase, por ejemplo, el uso de la expresión "somos una familia"), ya que estos dos aspectos incrementaron la obediencia, una situación que no sucede ante pruebas de carácter social. Por tanto, los resultados demuestran que los modelos reflejan patrones sociales humanos, ya que se les estrena tanto con lenguaje como con conductas humanas. Así, los expertos advierten que los desarrolladores deberían incluir a científicos sociales en las pruebas, ya que los enfoques técnicos no bastan para anticipar vulnerabilidades.
Imagen principal de 3DJuegos
En 3DJuegos | La crisis de IA de Mark Zuckerberg demuestra por qué todo el dinero del mundo no sirve para comprar una solución
En 3DJuegos | ¿Por qué todos hablan de "nano banana"? Google Gemini deja boquiabiertos a los usuarios con su nueva función
Ver todos los comentarios en https://www.3djuegos.com
VER 1 Comentario