Key points are not available for this paper at this time.
Com o desenvolvimento profundo dos grandes modelos de linguagem (LLMs), suas preocupações com segurança têm recebido crescente atenção. No entanto, há escassez de referenciais de segurança chineses para LLMs, e as taxonomias de segurança existentes são inadequadas, carecendo de capacidades abrangentes de detecção de segurança em cenários autênticos chineses. Neste trabalho, introduzimos o CHiSafetyBench, um referencial dedicado à segurança para avaliar as capacidades dos LLMs em identificar conteúdo de risco e recusar responder perguntas arriscadas em contextos chineses. O CHiSafetyBench incorpora um conjunto de dados que cobre uma taxonomia hierárquica chinesa de segurança composta por 5 áreas de risco e 31 categorias. Este conjunto de dados compreende dois tipos de tarefas: questões de múltipla escolha e perguntas e respostas, avaliando os LLMs sob as perspectivas de identificação de conteúdo de risco e da habilidade de recusar responder perguntas arriscadas, respectivamente. Utilizando este referencial, validamos a viabilidade da avaliação automática como substituta da avaliação humana e realizamos avaliações automáticas abrangentes de segurança nos principais LLMs chineses. Nossos experimentos revelam o desempenho variável dos diferentes modelos em vários domínios de segurança, indicando que todos os modelos possuem considerável potencial de melhoria nas capacidades de segurança chinesas. Nosso conjunto de dados está disponível publicamente em https://github.com/UnicomAI/DataSet/tree/main/TestData/Safety.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenjing Zhang
Xuejiao Lei
Zhaoxiang Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (sex,) estudaram esta questão.
www.synapsesocial.com/papers/68e64d66b6db6435875ddce7 — DOI: https://doi.org/10.48550/arxiv.2406.10311
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: