Key points are not available for this paper at this time.
Apresentamos o WorkBench: um conjunto de dados benchmark para avaliar a capacidade dos agentes de executar tarefas em um ambiente de trabalho. O WorkBench contém um ambiente sandbox com cinco bancos de dados, 26 ferramentas e 690 tarefas. Essas tarefas representam atividades comerciais comuns, como enviar e-mails e agendar reuniões. As tarefas no WorkBench são desafiadoras pois requerem planejamento, seleção de ferramentas e frequentemente múltiplas ações. Se uma tarefa for executada com sucesso, um (ou mais) dos valores do banco de dados podem mudar. O resultado correto para cada tarefa é único e inequívoco, o que permite uma avaliação robusta e automatizada. Chamamos essa contribuição principal de avaliação centrada no resultado. Avaliamos cinco agentes ReAct existentes no WorkBench, encontrando que eles completam com sucesso tão pouco quanto 3% das tarefas (Llama2-70B) e apenas 43% para o de melhor desempenho (GPT-4). Também descobrimos que erros dos agentes podem resultar na ação errada sendo tomada, como um e-mail enviado para a pessoa errada. O WorkBench revela fraquezas na capacidade dos agentes de realizar atividades comerciais comuns, levantando questões sobre seu uso em ambientes de trabalho de alta responsabilidade. O WorkBench está publicamente disponível como um recurso gratuito em https://github.com/olly-styles/WorkBench.
Building similarity graph...
Analyzing shared references across papers
Loading...
Olly Styles
Sam Miller
Patricio Cerda-Mardini
Building similarity graph...
Analyzing shared references across papers
Loading...
Styles et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/68e6c5d3b6db643587644384 — DOI: https://doi.org/10.48550/arxiv.2405.00823
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: