May 1, 2024Open Access

WorkBench: um Conjunto de Dados Benchmark para Agentes em um Ambiente Realista de Trabalho

Key Points

Key points are not available for this paper at this time.

Abstract

Apresentamos o WorkBench: um conjunto de dados benchmark para avaliar a capacidade dos agentes de executar tarefas em um ambiente de trabalho. O WorkBench contém um ambiente sandbox com cinco bancos de dados, 26 ferramentas e 690 tarefas. Essas tarefas representam atividades comerciais comuns, como enviar e-mails e agendar reuniões. As tarefas no WorkBench são desafiadoras pois requerem planejamento, seleção de ferramentas e frequentemente múltiplas ações. Se uma tarefa for executada com sucesso, um (ou mais) dos valores do banco de dados podem mudar. O resultado correto para cada tarefa é único e inequívoco, o que permite uma avaliação robusta e automatizada. Chamamos essa contribuição principal de avaliação centrada no resultado. Avaliamos cinco agentes ReAct existentes no WorkBench, encontrando que eles completam com sucesso tão pouco quanto 3% das tarefas (Llama2-70B) e apenas 43% para o de melhor desempenho (GPT-4). Também descobrimos que erros dos agentes podem resultar na ação errada sendo tomada, como um e-mail enviado para a pessoa errada. O WorkBench revela fraquezas na capacidade dos agentes de realizar atividades comerciais comuns, levantando questões sobre seu uso em ambientes de trabalho de alta responsabilidade. O WorkBench está publicamente disponível como um recurso gratuito em https://github.com/olly-styles/WorkBench.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Olly Styles

Sam Miller

Patricio Cerda-Mardini

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

WorkBench: um Conjunto de Dados Benchmark para Agentes em um Ambiente Realista de Trabalho

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider