Avanços recentes mostraram que a ampliação do cálculo em tempo de teste permite que grandes modelos de linguagem (LLMs) resolvam problemas cada vez mais complexos em diversos domínios. Um paradigma eficaz para escalonamento em tempo de teste (TTS) envolve geradores LLM produzindo múltiplos candidatos a solução, com verificadores LLM avaliando a correção desses candidatos sem respostas de referência. Neste artigo, estudamos verificadores generativos, que realizam a verificação gerando raciocínio em cadeia de pensamento (CoT) seguido por um veredicto binário. Analisamos sistematicamente a dinâmica da verificação ao longo de três dimensões — dificuldade do problema, capacidade do gerador e capacidade do gerador do verificador — com estudos empíricos em 12 benchmarks envolvendo raciocínio matemático, conhecimento e tarefas de raciocínio em linguagem natural, usando 14 modelos open-source (faixa de 2B a 72B parâmetros) e GPT-4o. Nossos experimentos revelam três achados-chave sobre a eficácia da verificação: (1) problemas fáceis permitem que verificadores certifiquem respostas corretas mais confiavelmente; (2) geradores fracos produzem erros mais fáceis de detectar do que geradores fortes; (3) a habilidade de verificação geralmente está correlacionada com a capacidade do verificador de resolver problemas, embora essa relação varie com a dificuldade do problema. Esses achados revelam oportunidades para otimizar estratégias básicas de verificação em aplicações de TTS. Primeiro, dado o mesmo verificador, alguns geradores fracos podem alcançar desempenho pós-verificação quase equivalente a geradores mais fortes (por exemplo, a diferença de desempenho entre Gemma2-9B e Gemma2-27B reduz em 75,5%). Segundo, identificamos casos em que verificadores fortes oferecem vantagem limitada sobre os fracos, pois ambos não proporcionam ganhos significativos de verificação, sugerindo que escalar apenas o verificador não supera desafios fundamentais da verificação.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Zhou
Austin Xu
Yuanze Zhou
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e02f2cf0e39f13e7fa1e69 — DOI: https://doi.org/10.48550/arxiv.2509.17995
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: