February 28, 2024Open Access

CogBench: um modelo de linguagem grande entra em um laboratório de psicologia

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem grandes (LLMs) avançaram significativamente o campo da inteligência artificial. No entanto, avaliá-los de forma abrangente permanece desafiador. Argumentamos que isso se deve em parte ao foco predominante em métricas de desempenho na maioria dos benchmarks. Este artigo apresenta CogBench, um benchmark que inclui dez métricas comportamentais derivadas de sete experimentos de psicologia cognitiva. Esta abordagem inovadora oferece um conjunto de ferramentas para fenotipagem do comportamento dos LLMs. Aplicamos o CogBench a 35 LLMs, gerando um conjunto de dados rico e diverso. Analisamos esses dados usando técnicas estatísticas de modelagem multinível, levando em conta as dependências aninhadas entre versões ajustadas de LLMs específicos. Nosso estudo destaca o papel crucial do tamanho do modelo e do aprendizado por reforço a partir de feedback humano (RLHF) na melhoria do desempenho e alinhamento com o comportamento humano. Interessantemente, descobrimos que modelos open-source são menos propensos a riscos do que modelos proprietários e que o ajuste fino em código não necessariamente aprimora o comportamento dos LLMs. Por fim, exploramos os efeitos das técnicas de engenharia de prompt. Descobrimos que a técnica chain-of-thought melhora o raciocínio probabilístico, enquanto a técnica take-a-step-back favorece comportamentos baseados em modelos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Julian Coda-Forno

Marcel Binz

Jane X. Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CogBench: um modelo de linguagem grande entra em um laboratório de psicologia

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider