Grandes Modelos de Linguagem (LLMs) demonstraram capacidades excepcionais, mas selecionar a resposta mais confiável entre múltiplos LLMs continua sendo um desafio, especialmente em ambientes com recursos limitados. Abordagens existentes frequentemente dependem de verificadores externos custosos, avaliadores humanos ou técnicas de autoconsistência que exigem múltiplas amostras de um único modelo. Embora sistemas multi-LLM produzam respostas mais diversas do que modelos únicos e, portanto, tenham maior potencial, muitas vezes apresentam desempenho inferior comparado à autoconsistência de um único LLM. Propomos um método novo, fundamentado e computacionalmente eficiente para selecionar a melhor resposta entre múltiplos LLMs distintos, utilizando uma pontuação calibrada de log-verossimilhança, aproveitando implicitamente o conhecimento e a confiança inerentes desses modelos. Nosso método demonstra melhorias aproximadas de 4%, 3% e 5% tanto em cenários de debate (discussões multi-turno entre LLMs) quanto não-debate (Best-of-N com múltiplos LLMs) nos conjuntos de dados GSM8K, MMLU (6 subconjuntos) e ARC, respectivamente.
Building similarity graph...
Analyzing shared references across papers
Loading...
Aakriti Agrawal
Rohith Aralikatti
Anirudh Satheesh
Building similarity graph...
Analyzing shared references across papers
Loading...
Agrawal et al. (Tue,) estudaram esta questão.
www.synapsesocial.com/papers/690e8b75a5b062d7a4e73883 — DOI: https://doi.org/10.48550/arxiv.2510.02377
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: