Key points are not available for this paper at this time.
Descrevemos nossos primeiros esforços para testar modelos de linguagem com o objetivo de simultaneamente descobrir, medir e tentar reduzir suas saídas potencialmente prejudiciais. Fazemos três contribuições principais. Primeiro, investigamos comportamentos de escala para testes de resistência em 3 tamanhos de modelo (2,7B, 13B e 52B parâmetros) e 4 tipos de modelo: um modelo de linguagem simples (LM); um LM orientado para ser útil, honesto e inofensivo; um LM com amostragem de rejeição; e um modelo treinado para ser útil e inofensivo usando aprendizado por reforço a partir de feedback humano (RLHF). Descobrimos que os modelos RLHF são cada vez mais difíceis de testar à medida que escalam, e encontramos uma tendência plana com a escala para os outros tipos de modelo. Segundo, liberamos nosso conjunto de dados com 38.961 ataques de teste para que outros possam analisar e aprender. Fornecemos nossa própria análise dos dados e encontramos uma variedade de saídas prejudiciais, que vão desde linguagem ofensiva até saídas não violentas eticamente prejudiciais mais sutis. Terceiro, descrevemos exaustivamente nossas instruções, processos, metodologias estatísticas e incertezas sobre os testes. Esperamos que essa transparência acelere nossa capacidade de trabalhar juntos como comunidade para desenvolver normas, práticas e padrões técnicos compartilhados sobre como testar modelos de linguagem.
Building similarity graph...
Analyzing shared references across papers
Loading...
Deep Ganguli
Liane Lovitt
Jackson Kernion
Building similarity graph...
Analyzing shared references across papers
Loading...
Ganguli et al. (Tue,) estudaram essa questão.
www.synapsesocial.com/papers/69dd429afb7610310c1015f8 — DOI: https://doi.org/10.48550/arxiv.2209.07858