Key points are not available for this paper at this time.
Modelos de linguagem grandes proeminentes demonstraram desempenho em nível humano em muitos domínios, permitindo até que agentes derivados simulem interações humanas e sociais. Embora trabalhos práticos tenham comprovado a viabilidade de fundamentar agentes de linguagem em simulações sandbox ou simuladores incorporados, os atuais benchmarks de inteligência social permanecem no nível da linguagem ou utilizam métricas subjetivas. Em busca de uma avaliação mais realista e objetiva, introduzimos o benchmark Social Tasks in Sandbox Simulation (STSS), que avalia agentes de linguagem objetivamente no nível de ação ao examinar as conquistas de objetivos dentro da simulação multiagente. Adicionalmente, selecionamos cenários de conversação para construir um benchmark no nível da linguagem, fornecendo uma avaliação preliminar economicamente prudente e alinhada com benchmarks prevalentes. Para avaliar a importância da arquitetura do agente, implementamos um módulo de planejamento dirigido por objetivos (TDP) como complemento ao agente existente. Nossos achados avaliativos destacam que o benchmark STSS é desafiador para agentes de linguagem de ponta. Além disso, ele discrimina efetivamente entre agentes de linguagem distintos, sugerindo sua utilidade como benchmark para avaliação tanto de modelos de linguagem quanto de arquiteturas de agentes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenxu Wang
Bin Dai
Huaping Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68e700efb6db64358767b25d — DOI: https://doi.org/10.48550/arxiv.2404.05337
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: