Key points are not available for this paper at this time.
Os avanços feitos pelos Large Language Models (LLMs) levaram à busca por agentes LLM capazes de resolver tarefas intrincadas de raciocínio em múltiplas etapas. Como em qualquer iniciativa de pesquisa, benchmarking e avaliação são pilares essenciais para um progresso eficiente e confiável. No entanto, benchmarks existentes são frequentemente limitados e simplesmente computam o sucesso geral da tarefa. Para enfrentar essas questões, propomos o AgentQuest -- uma estrutura onde (i) tanto benchmarks quanto métricas são modulares e facilmente extensíveis através de APIs bem documentadas e fáceis de usar; (ii) oferecemos duas novas métricas de avaliação que podem acompanhar de forma confiável o progresso do agente LLM durante a resolução de uma tarefa. Exemplificamos a utilidade das métricas em dois casos de uso nos quais identificamos pontos comuns de falha e refinamos a arquitetura do agente para obter um aumento significativo de desempenho. Junto com a comunidade científica, esperamos expandir ainda mais o AgentQuest e, por isso, o disponibilizamos em https://github.com/nec-research/agentquest.
Building similarity graph...
Analyzing shared references across papers
Loading...
Luca Gioacchini
Giuseppe Siracusano
Davide Sanvito
Building similarity graph...
Analyzing shared references across papers
Loading...
Gioacchini et al. (Ter,) estudaram essa questão.
www.synapsesocial.com/papers/68e6fcc5b6db643587677285 — DOI: https://doi.org/10.48550/arxiv.2404.06411
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: