April 8, 2024Open Access

Rumo à Avaliação Objetiva da Inteligência Social para Agentes de Linguagem no Nível de Ação

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem grandes proeminentes demonstraram desempenho em nível humano em muitos domínios, permitindo até que agentes derivados simulem interações humanas e sociais. Embora trabalhos práticos tenham comprovado a viabilidade de fundamentar agentes de linguagem em simulações sandbox ou simuladores incorporados, os atuais benchmarks de inteligência social permanecem no nível da linguagem ou utilizam métricas subjetivas. Em busca de uma avaliação mais realista e objetiva, introduzimos o benchmark Social Tasks in Sandbox Simulation (STSS), que avalia agentes de linguagem objetivamente no nível de ação ao examinar as conquistas de objetivos dentro da simulação multiagente. Adicionalmente, selecionamos cenários de conversação para construir um benchmark no nível da linguagem, fornecendo uma avaliação preliminar economicamente prudente e alinhada com benchmarks prevalentes. Para avaliar a importância da arquitetura do agente, implementamos um módulo de planejamento dirigido por objetivos (TDP) como complemento ao agente existente. Nossos achados avaliativos destacam que o benchmark STSS é desafiador para agentes de linguagem de ponta. Além disso, ele discrimina efetivamente entre agentes de linguagem distintos, sugerindo sua utilidade como benchmark para avaliação tanto de modelos de linguagem quanto de arquiteturas de agentes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chenxu Wang

Bin Dai

Huaping Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Rumo à Avaliação Objetiva da Inteligência Social para Agentes de Linguagem no Nível de Ação

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider