April 9, 2024Open Access

AgentQuest: Uma Estrutura Modular de Referência para Medir o Progresso e Melhorar Agentes LLM

Key Points

Key points are not available for this paper at this time.

Abstract

Os avanços feitos pelos Large Language Models (LLMs) levaram à busca por agentes LLM capazes de resolver tarefas intrincadas de raciocínio em múltiplas etapas. Como em qualquer iniciativa de pesquisa, benchmarking e avaliação são pilares essenciais para um progresso eficiente e confiável. No entanto, benchmarks existentes são frequentemente limitados e simplesmente computam o sucesso geral da tarefa. Para enfrentar essas questões, propomos o AgentQuest -- uma estrutura onde (i) tanto benchmarks quanto métricas são modulares e facilmente extensíveis através de APIs bem documentadas e fáceis de usar; (ii) oferecemos duas novas métricas de avaliação que podem acompanhar de forma confiável o progresso do agente LLM durante a resolução de uma tarefa. Exemplificamos a utilidade das métricas em dois casos de uso nos quais identificamos pontos comuns de falha e refinamos a arquitetura do agente para obter um aumento significativo de desempenho. Junto com a comunidade científica, esperamos expandir ainda mais o AgentQuest e, por isso, o disponibilizamos em https://github.com/nec-research/agentquest.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Luca Gioacchini

Giuseppe Siracusano

Davide Sanvito

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AgentQuest: Uma Estrutura Modular de Referência para Medir o Progresso e Melhorar Agentes LLM

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider