What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

Variação na Verificação: Compreendendo a Dinâmica da Verificação em Grandes Modelos de Linguagem

Key Points

Problemas fáceis permitem que verificadores certifiquem respostas corretas com maior confiabilidade, aumentando sua eficácia.
Geradores fracos produzem erros mais fáceis de detectar do que os de geradores fortes, indicando variações na confiabilidade.
A habilidade de verificação frequentemente se correlaciona com a capacidade do verificador em resolver problemas, embora isso varie conforme a dificuldade do problema.
Oportunidades para otimizar estratégias de verificação em aplicações de escalonamento em tempo de teste surgem a partir de várias comparações entre geradores e verificadores.

Abstract

Avanços recentes mostraram que a ampliação do cálculo em tempo de teste permite que grandes modelos de linguagem (LLMs) resolvam problemas cada vez mais complexos em diversos domínios. Um paradigma eficaz para escalonamento em tempo de teste (TTS) envolve geradores LLM produzindo múltiplos candidatos a solução, com verificadores LLM avaliando a correção desses candidatos sem respostas de referência. Neste artigo, estudamos verificadores generativos, que realizam a verificação gerando raciocínio em cadeia de pensamento (CoT) seguido por um veredicto binário. Analisamos sistematicamente a dinâmica da verificação ao longo de três dimensões — dificuldade do problema, capacidade do gerador e capacidade do gerador do verificador — com estudos empíricos em 12 benchmarks envolvendo raciocínio matemático, conhecimento e tarefas de raciocínio em linguagem natural, usando 14 modelos open-source (faixa de 2B a 72B parâmetros) e GPT-4o. Nossos experimentos revelam três achados-chave sobre a eficácia da verificação: (1) problemas fáceis permitem que verificadores certifiquem respostas corretas mais confiavelmente; (2) geradores fracos produzem erros mais fáceis de detectar do que geradores fortes; (3) a habilidade de verificação geralmente está correlacionada com a capacidade do verificador de resolver problemas, embora essa relação varie com a dificuldade do problema. Esses achados revelam oportunidades para otimizar estratégias básicas de verificação em aplicações de TTS. Primeiro, dado o mesmo verificador, alguns geradores fracos podem alcançar desempenho pós-verificação quase equivalente a geradores mais fortes (por exemplo, a diferença de desempenho entre Gemma2-9B e Gemma2-27B reduz em 75,5%). Segundo, identificamos casos em que verificadores fortes oferecem vantagem limitada sobre os fracos, pois ambos não proporcionam ganhos significativos de verificação, sugerindo que escalar apenas o verificador não supera desafios fundamentais da verificação.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yang Zhou

Austin Xu

Yuanze Zhou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Variação na Verificação: Compreendendo a Dinâmica da Verificação em Grandes Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider