June 14, 2024Open Access

CHiSafetyBench: Um Referencial Hierárquico Chinês de Segurança para Grandes Modelos de Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Com o desenvolvimento profundo dos grandes modelos de linguagem (LLMs), suas preocupações com segurança têm recebido crescente atenção. No entanto, há escassez de referenciais de segurança chineses para LLMs, e as taxonomias de segurança existentes são inadequadas, carecendo de capacidades abrangentes de detecção de segurança em cenários autênticos chineses. Neste trabalho, introduzimos o CHiSafetyBench, um referencial dedicado à segurança para avaliar as capacidades dos LLMs em identificar conteúdo de risco e recusar responder perguntas arriscadas em contextos chineses. O CHiSafetyBench incorpora um conjunto de dados que cobre uma taxonomia hierárquica chinesa de segurança composta por 5 áreas de risco e 31 categorias. Este conjunto de dados compreende dois tipos de tarefas: questões de múltipla escolha e perguntas e respostas, avaliando os LLMs sob as perspectivas de identificação de conteúdo de risco e da habilidade de recusar responder perguntas arriscadas, respectivamente. Utilizando este referencial, validamos a viabilidade da avaliação automática como substituta da avaliação humana e realizamos avaliações automáticas abrangentes de segurança nos principais LLMs chineses. Nossos experimentos revelam o desempenho variável dos diferentes modelos em vários domínios de segurança, indicando que todos os modelos possuem considerável potencial de melhoria nas capacidades de segurança chinesas. Nosso conjunto de dados está disponível publicamente em https://github.com/UnicomAI/DataSet/tree/main/TestData/Safety.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenjing Zhang

Xuejiao Lei

Zhaoxiang Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CHiSafetyBench: Um Referencial Hierárquico Chinês de Segurança para Grandes Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider