Key points are not available for this paper at this time.
Modelos de linguagem (LMs) como GPT-3, PaLM e ChatGPT são a base para quase todas as principais tecnologias linguísticas, mas suas capacidades, limitações e riscos não são bem compreendidos. Apresentamos a Avaliação Holística de Modelos de Linguagem (HELM) para melhorar a transparência dos LMs. Os LMs podem servir a muitos propósitos e seu comportamento deve satisfazer vários requisitos. Para navegar no vasto espaço de possíveis cenários e métricas, taxonomizamos esse espaço e selecionamos subconjuntos representativos. Avaliamos modelos em 16 cenários principais e 7 métricas, expondo compromissos importantes. Complementamos nossa avaliação principal com sete avaliações direcionadas para analisar profundamente aspectos específicos (incluindo conhecimento mundial, raciocínio, repetição de conteúdo protegido por direitos autorais e geração de desinformação). Avaliamos 30 LMs, da OpenAI, Microsoft, Google, Meta, Cohere, AI21 Labs e outros. Antes do HELM, os modelos foram avaliados em apenas 17,9% dos cenários principais do HELM, com alguns modelos proeminentes não compartilhando um único cenário em comum. Melhoramos isso para 96,0%: todos os 30 modelos agora são avaliados sob as mesmas condições padronizadas. Nossa avaliação revela 25 descobertas de alto nível. Para total transparência, liberamos publicamente todos os prompts e respostas brutas dos modelos. HELM é um benchmark vivo para a comunidade, continuamente atualizado com novos cenários, métricas e modelos https://crfm.stanford.edu/helm/latest/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rishi Bommasani
Percy Liang
Tong Lee
Annals of the New York Academy of Sciences
Stanford University
Stanley Foundation
Building similarity graph...
Analyzing shared references across papers
Loading...
Bommasani et al. (Qui,) estudaram essa questão.
www.synapsesocial.com/papers/69dee5db499d77a496b0d24d — DOI: https://doi.org/10.1111/nyas.15007
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: