Key points are not available for this paper at this time.
Modelos de linguagem grandes (LLMs) avançaram significativamente o campo da inteligência artificial. No entanto, avaliá-los de forma abrangente permanece desafiador. Argumentamos que isso se deve em parte ao foco predominante em métricas de desempenho na maioria dos benchmarks. Este artigo apresenta CogBench, um benchmark que inclui dez métricas comportamentais derivadas de sete experimentos de psicologia cognitiva. Esta abordagem inovadora oferece um conjunto de ferramentas para fenotipagem do comportamento dos LLMs. Aplicamos o CogBench a 35 LLMs, gerando um conjunto de dados rico e diverso. Analisamos esses dados usando técnicas estatísticas de modelagem multinível, levando em conta as dependências aninhadas entre versões ajustadas de LLMs específicos. Nosso estudo destaca o papel crucial do tamanho do modelo e do aprendizado por reforço a partir de feedback humano (RLHF) na melhoria do desempenho e alinhamento com o comportamento humano. Interessantemente, descobrimos que modelos open-source são menos propensos a riscos do que modelos proprietários e que o ajuste fino em código não necessariamente aprimora o comportamento dos LLMs. Por fim, exploramos os efeitos das técnicas de engenharia de prompt. Descobrimos que a técnica chain-of-thought melhora o raciocínio probabilístico, enquanto a técnica take-a-step-back favorece comportamentos baseados em modelos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Julian Coda-Forno
Marcel Binz
Jane X. Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Coda-Forno et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e7720db6db6435876e71ba — DOI: https://doi.org/10.48550/arxiv.2402.18225
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: