August 23, 2022Open Access

Testando Modelos de Linguagem para Reduzir Danos: Métodos, Comportamentos de Escala e Lições Aprendidas

Key Points

Key points are not available for this paper at this time.

Abstract

Descrevemos nossos primeiros esforços para testar modelos de linguagem com o objetivo de simultaneamente descobrir, medir e tentar reduzir suas saídas potencialmente prejudiciais. Fazemos três contribuições principais. Primeiro, investigamos comportamentos de escala para testes de resistência em 3 tamanhos de modelo (2,7B, 13B e 52B parâmetros) e 4 tipos de modelo: um modelo de linguagem simples (LM); um LM orientado para ser útil, honesto e inofensivo; um LM com amostragem de rejeição; e um modelo treinado para ser útil e inofensivo usando aprendizado por reforço a partir de feedback humano (RLHF). Descobrimos que os modelos RLHF são cada vez mais difíceis de testar à medida que escalam, e encontramos uma tendência plana com a escala para os outros tipos de modelo. Segundo, liberamos nosso conjunto de dados com 38.961 ataques de teste para que outros possam analisar e aprender. Fornecemos nossa própria análise dos dados e encontramos uma variedade de saídas prejudiciais, que vão desde linguagem ofensiva até saídas não violentas eticamente prejudiciais mais sutis. Terceiro, descrevemos exaustivamente nossas instruções, processos, metodologias estatísticas e incertezas sobre os testes. Esperamos que essa transparência acelere nossa capacidade de trabalhar juntos como comunidade para desenvolver normas, práticas e padrões técnicos compartilhados sobre como testar modelos de linguagem.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Deep Ganguli

Liane Lovitt

Jackson Kernion

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Testando Modelos de Linguagem para Reduzir Danos: Métodos, Comportamentos de Escala e Lições Aprendidas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study