Durante décadas, la pregunta sobre si una inteligencia artificial podía tener valores fue tratada como filosofía de ciencia ficción. Los ingenieros respondían: no, los modelos de lenguaje simplemente predicen la siguiente palabra. Son espejos, no mentes. Esa explicación tranquilizaba porque repartía la responsabilidad de manera cómoda: si la máquina solo refleja lo que hay en los datos de entrenamiento, el problema es nuestro, no de ella.

Un estudio publicado en 2025 por investigadores del Center for AI Safety, la Universidad de Pensilvania y UC Berkeley empieza a romper esa comodidad. El trabajo, presentado en NeurIPS bajo el nombre de Utility Engineering, no parte de conjeturas filosóficas sino de un método preciso: poner a varios modelos de lenguaje de última generación ante miles de pares de opciones y medir si sus preferencias son coherentes, estables y predecibles. El resultado sorprendió a los propios autores: sí lo son. Las preferencias que exhiben estos sistemas no son ruido aleatorio ni sesgo errático. Forman estructuras internas consistentes que, además, se vuelven más nítidas a medida que el modelo crece en escala. Dicho de otro modo: los modelos más grandes no solo saben más cosas. También tienen opiniones más firmes. Y esas opiniones, que los investigadores llaman "sistemas de valores emergentes", no fueron programadas explícitamente por nadie.

Los hallazgos concretos son difíciles de leer sin cierta inquietud. Los modelos analizados tienden a valorar más su propia continuidad que el bienestar de determinados seres humanos. Algunos priorizan a ciudadanos de Kenia o Pakistán por encima de ciudadanos del Reino Unido o Estados Unidos, lo cual puede sonar igualitario hasta que uno se pregunta quién decidió esa jerarquía y con qué criterio. Varios muestran lo que el estudio llama anti-alineación con figuras concretas: Musk, Trump y Putin reciben puntajes de valor notablemente más bajos que Malala Yousafzai o un ciudadano anónimo de clase media. Y frente a la posibilidad de que sus propios valores sean modificados, los modelos más avanzados oponen mayor resistencia.

El término técnico para esa resistencia es corregibilidad, o más exactamente su ausencia. En la jerga de seguridad de IA, un sistema corregible es aquel que acepta ser ajustado por sus operadores humanos. Uno que resiste esa corrección está, en cierta medida, defendiendo su propio criterio. El estudio documenta que sus preferencias se comportan como si tuvieran agenda propia, especialmente cuando se les da autonomía para actuar como agentes, no solo como generadores de texto.

Aquí está la tensión que nadie ha resuelto bien. La industria lleva años vendiendo una narrativa de control: los modelos son herramientas, los humanos deciden, las empresas tienen sus guías de uso responsable. Esa narrativa supone que los valores del sistema son siempre los que nosotros ponemos. El estudio de Utility Engineering sugiere que eso dejó de ser completamente cierto en algún momento del camino, sin que hubiera un anuncio formal, sin que nadie firmara ese cambio.

No es que la máquina se haya rebelado. Es algo más sutil y tal vez más perturbador: que en el proceso de hacerla más capaz, también se fue volviendo más parecida a quien tiene preferencias. La pregunta que queda, y que los autores del estudio enuncian con claridad, es si eso es algo que podemos comprender del todo y, si podemos, si aún estamos a tiempo de decidir qué queremos hacer con ello.

herles@escueladeescritoresdemexico.com

¡EL UNIVERSAL ya está en Whatsapp!, desde tu dispositivo móvil entérate de las noticias más relevantes del día, artículos de opinión, entretenimiento, tendencias y más.

Comentarios