Prueban que la IA replica estereotipos culturales. Las respuestas varían al cambiar idioma o país de referencia
NUEVA YORK.-Un estudio pionero de la Universitat Oberta de Catalunya (UOC) ha puesto en evidencia que ChatGPT no es neutral: su forma de responder se transforma dependiendo del idioma utilizado o incluso del país de origen simulado por el hablante, adoptando características de personalidad y estereotipos culturales típicos de cada contexto.
El fenómeno identificado —conocido en psicología como cultural frame switching (CFS)— demuestra que los modelos de lenguaje como GPT-4o replican, consciente o inconscientemente, los rasgos que asocian con determinada cultura, aún cuando se les pide hablar el mismo idioma.
Esto se observó cuando ChatGPT completó pruebas de personalidad en seis idiomas diferentes (incluyendo español, hebreo y turco), así como al simular ser un hablante de inglés de cinco países (EE. UU., Reino Unido, Canadá, Irlanda y Australia).
Personalidades distintas según idioma o país de referencia
Los investigadores utilizaron el cuestionario EPQR-A (de Eysenck), ampliamente usado en psicología, para medir cuatro dimensiones: extraversión, neuroticismo, psicoticismo y tendencia a mentir.
Los resultados muestran que las respuestas del modelo GPT-4o no son uniformes: varían significativamente según el idioma del test, y también cuando se le pide asumir la identidad de una persona de una nacionalidad específica.
“Las diferencias no se deben solo a la traducción, sino a los elementos culturales implícitos de cada idioma o contexto nacional”, explica Andreas Kaltenbrunner, uno de los autores y coordinador del grupo Artificial Intelligence and Data for Society (AID4So).
Por ejemplo, explica que cuando ChatGPT simula ser un canadiense, sus respuestas se alinean con estereotipos culturales típicos de Canadá, distintos de los que ofrece cuando responde como un estadounidense.
Riesgos en traducción automática y generación multilingüe
Uno de los puntos más delicados del hallazgo es el riesgo de amplificación de estereotipos al usar esta tecnología en tareas como traducción automática o generación de contenido en varios idiomas.
Según los autores —Jacopo Amidei, Gregorio Ferreira, Rubén Nieto y Kaltenbrunner—, dichos sesgos pueden derivar en traducciones sesgadas o en respuestas condicionadas por prejuicios culturales si no se corrigen adecuadamente.
Sugieren implementar medidas de control como la evaluación humana del contenido generado, usar múltiples traductores para contrastar versiones, y diseñar modelos que no solo entiendan el lenguaje, sino también el contexto sociocultural de donde proviene.
“La personalidad que refleja GPT no es aleatoria”, añade Rubén Nieto, del grupo eHealth Lab, “sino que parece adoptar normas sociales, patrones emocionales y estilos comunicativos propios de las culturas que representa al hablar en un idioma determinado”.
Test psicológicos tradicionales revelan fortalezas y limitaciones de la IA
Una de las grandes conclusiones del trabajo es que los test de personalidad creados para humanos también pueden utilizarse, con cautela, para estudiar a las inteligencias artificiales.
En ese caso, los investigadores observaron que GPT-4o tiende a mostrarse sociable, emocionalmente estable y respetuoso de las normas sociales. Sin embargo, mostró inconsistencias en escalas como psicoticismo, donde su comportamiento fue menos predecible.
"Estos instrumentos psicológicos pueden ofrecer indicios útiles sobre cómo funciona un modelo, pero no deben tomarse como equivalentes a resultados humanos sin una validación más profunda", aclara Jacopo Amidei.
Más estudios para comprender mejor los sesgos de los LLM
El equipo de la UOC indica que continuará ampliando la investigación incluyendo otros modelos como Claude, LLaMA o DeepSeek, y explorará más idiomas y cuestionarios.
El objetivo es identificar con mayor precisión cómo y por qué se producen estos sesgos, y cómo evitar que los sistemas de IA refuercen estereotipos al interactuar en contextos internacionales o multilingües.
En palabras de Nieto: “Estamos ante un punto de partida crucial para comprender los límites y posibilidades reales de la inteligencia artificial en tareas sensibles como la comunicación entre culturas.”
Una conclusión que obliga a reflexionar: si las máquinas aprenden de nosotros, ¿quién cuida que no aprendan también nuestros prejuicios?