May 25, 2023Open Access

Avaliação Holística de Modelos de Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem (LMs) como GPT-3, PaLM e ChatGPT são a base para quase todas as principais tecnologias linguísticas, mas suas capacidades, limitações e riscos não são bem compreendidos. Apresentamos a Avaliação Holística de Modelos de Linguagem (HELM) para melhorar a transparência dos LMs. Os LMs podem servir a muitos propósitos e seu comportamento deve satisfazer vários requisitos. Para navegar no vasto espaço de possíveis cenários e métricas, taxonomizamos esse espaço e selecionamos subconjuntos representativos. Avaliamos modelos em 16 cenários principais e 7 métricas, expondo compromissos importantes. Complementamos nossa avaliação principal com sete avaliações direcionadas para analisar profundamente aspectos específicos (incluindo conhecimento mundial, raciocínio, repetição de conteúdo protegido por direitos autorais e geração de desinformação). Avaliamos 30 LMs, da OpenAI, Microsoft, Google, Meta, Cohere, AI21 Labs e outros. Antes do HELM, os modelos foram avaliados em apenas 17,9% dos cenários principais do HELM, com alguns modelos proeminentes não compartilhando um único cenário em comum. Melhoramos isso para 96,0%: todos os 30 modelos agora são avaliados sob as mesmas condições padronizadas. Nossa avaliação revela 25 descobertas de alto nível. Para total transparência, liberamos publicamente todos os prompts e respostas brutas dos modelos. HELM é um benchmark vivo para a comunidade, continuamente atualizado com novos cenários, métricas e modelos https://crfm.stanford.edu/helm/latest/.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rishi Bommasani

Percy Liang

Tong Lee

Journals

Annals of the New York Academy of Sciences

Actions

Institutions

Stanford University

Stanley Foundation

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Bommasani et al. (Qui,) estudaram essa questão.

www.synapsesocial.com/papers/69dee5db499d77a496b0d24d — DOI: https://doi.org/10.1111/nyas.15007

Also consider

Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context:

Effective Approaches to Attention-based Neural Machine Translation· 2015 · 751 citations
Evaluating Human-Language Model Interaction· 2022 · 45 citations
Bias in computer systems· 1996 · 1,092 citations
Efficient large-scale language model training on GPU clusters using megatron-LM· 2021 · 38 citations

Avaliação Holística de Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider