July 5, 2024Open Access

¿Son los Grandes Modelos de Lenguaje Tomadores de Decisiones Estratégicas? Un Estudio del Rendimiento y Sesgo en Juegos No Suma Cero para Dos Jugadores

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los Grandes Modelos de Lenguaje (LLMs) se han utilizado cada vez más en entornos del mundo real, sin embargo, sus habilidades estratégicas permanecen en gran medida inexploradas. La teoría de juegos proporciona un buen marco para evaluar las habilidades de toma de decisiones de los LLMs en interacciones con otros agentes. Aunque estudios previos han demostrado que los LLMs pueden resolver estas tareas con prompts cuidadosamente seleccionados, fallan cuando cambia la configuración del problema o el prompt. En este trabajo investigamos el comportamiento de los LLMs en juegos estratégicos, Caza de Ciervos y Dilema del Prisionero, analizando variaciones de rendimiento bajo diferentes configuraciones y prompts. Nuestros resultados muestran que los LLMs de última generación evaluados exhiben al menos uno de los siguientes sesgos sistemáticos: (1) sesgo posicional, (2) sesgo en la recompensa, o (3) sesgo conductual. Posteriormente, observamos que el rendimiento de los LLMs disminuye cuando la configuración del juego está desalineada con los sesgos que los afectan. El rendimiento se evalúa basándose en la selección de la acción correcta, aquella que concuerda con los comportamientos preferidos indicados en el prompt para ambos jugadores. La alineación se refiere a si el sesgo del LLM coincide con la acción correcta. Por ejemplo, el rendimiento promedio de GPT-4o disminuye un 34% cuando está desalineado. Además, la tendencia actual de “más grande y más nuevo es mejor” no se sostiene para lo anterior, donde GPT-4o (el LLM con mejor desempeño actual) sufre la caída de rendimiento más sustancial. Finalmente, notamos que aunque la indicación a través de cadenas de pensamiento reduce el efecto de los sesgos en la mayoría de los modelos, está lejos de resolver el problema a nivel fundamental.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Nathan Herr

Fernando Acero

Roberta Raileanu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

¿Son los Grandes Modelos de Lenguaje Tomadores de Decisiones Estratégicas? Un Estudio del Rendimiento y Sesgo en Juegos No Suma Cero para Dos Jugadores

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider