September 28, 2025Open Access

コンセンサスか対立か？質問応答における対立する回答の詳細評価

Key Points

モデルはマルチアンサー質問応答タスクで対立する回答の処理に苦労し、脆弱性を示しています。
新しいベンチマークで8つの高性能大規模言語モデルを評価した結果、対立解決戦略に欠陥があることが判明しました。
本研究は詳細なラベル付きの対立認識型マルチアンサー質問応答ベンチマークNATCONFQAを提案します。
コスト効率の高い方法論による対立認識型データセットの開発は、質問応答研究の進展に不可欠です。

Abstract

大規模言語モデル（LLM）は質問応答（QA）タスクで高い性能を示しています。しかし、1つの質問に複数の有効な回答が存在する場合のマルチアンサー質問応答（MAQA）は依然として課題です。従来のQA設定では証拠間の一貫性が前提とされますが、MAQAでは対立する回答が含まれることがあります。このような対立を反映するデータセットの構築はコストと労力がかかり、既存のベンチマークは合成データに依存したり、Yes/No質問に限定したり、検証されていない自動注釈を用いることが多いです。本研究では、対立認識型MAQA設定を拡張し、モデルに全ての有効な回答を特定させるだけでなく、特定の対立する回答ペアを検出させることを要求します。このタスクを支援するために、ファクトチェックデータセットを活用したコスト効率の高い新しい方法論を提案し、詳細な対立ラベル付きで全ての回答ペアに対する現実的な対立認識型MAQAベンチマークであるNATCONFQAを構築しました。8つの高性能LLMをNATCONFQAで評価した結果、様々なタイプの対立を扱う際の脆弱性とそれらを解決する際の欠陥ある戦略が明らかになりました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Eviatar Nachshoni

Arie Cattan

Shmuel Amar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

コンセンサスか対立か？質問応答における対立する回答の詳細評価

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider