Los puntos clave no están disponibles para este artículo en este momento.
Los Grandes Modelos de Lenguaje (LLMs) se han utilizado cada vez más en entornos del mundo real, sin embargo, sus habilidades estratégicas permanecen en gran medida inexploradas. La teoría de juegos proporciona un buen marco para evaluar las habilidades de toma de decisiones de los LLMs en interacciones con otros agentes. Aunque estudios previos han demostrado que los LLMs pueden resolver estas tareas con prompts cuidadosamente seleccionados, fallan cuando cambia la configuración del problema o el prompt. En este trabajo investigamos el comportamiento de los LLMs en juegos estratégicos, Caza de Ciervos y Dilema del Prisionero, analizando variaciones de rendimiento bajo diferentes configuraciones y prompts. Nuestros resultados muestran que los LLMs de última generación evaluados exhiben al menos uno de los siguientes sesgos sistemáticos: (1) sesgo posicional, (2) sesgo en la recompensa, o (3) sesgo conductual. Posteriormente, observamos que el rendimiento de los LLMs disminuye cuando la configuración del juego está desalineada con los sesgos que los afectan. El rendimiento se evalúa basándose en la selección de la acción correcta, aquella que concuerda con los comportamientos preferidos indicados en el prompt para ambos jugadores. La alineación se refiere a si el sesgo del LLM coincide con la acción correcta. Por ejemplo, el rendimiento promedio de GPT-4o disminuye un 34% cuando está desalineado. Además, la tendencia actual de “más grande y más nuevo es mejor” no se sostiene para lo anterior, donde GPT-4o (el LLM con mejor desempeño actual) sufre la caída de rendimiento más sustancial. Finalmente, notamos que aunque la indicación a través de cadenas de pensamiento reduce el efecto de los sesgos en la mayoría de los modelos, está lejos de resolver el problema a nivel fundamental.
Building similarity graph...
Analyzing shared references across papers
Loading...
Nathan Herr
Fernando Acero
Roberta Raileanu
Building similarity graph...
Analyzing shared references across papers
Loading...
Herr et al. (Fri,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e614bab6db6435875a7bfd — DOI: https://doi.org/10.48550/arxiv.2407.04467
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: