大規模言語モデル(LLM)は質問応答(QA)タスクで高い性能を示しています。しかし、1つの質問に複数の有効な回答が存在する場合のマルチアンサー質問応答(MAQA)は依然として課題です。従来のQA設定では証拠間の一貫性が前提とされますが、MAQAでは対立する回答が含まれることがあります。このような対立を反映するデータセットの構築はコストと労力がかかり、既存のベンチマークは合成データに依存したり、Yes/No質問に限定したり、検証されていない自動注釈を用いることが多いです。本研究では、対立認識型MAQA設定を拡張し、モデルに全ての有効な回答を特定させるだけでなく、特定の対立する回答ペアを検出させることを要求します。このタスクを支援するために、ファクトチェックデータセットを活用したコスト効率の高い新しい方法論を提案し、詳細な対立ラベル付きで全ての回答ペアに対する現実的な対立認識型MAQAベンチマークであるNATCONFQAを構築しました。8つの高性能LLMをNATCONFQAで評価した結果、様々なタイプの対立を扱う際の脆弱性とそれらを解決する際の欠陥ある戦略が明らかになりました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Eviatar Nachshoni
Arie Cattan
Shmuel Amar
Building similarity graph...
Analyzing shared references across papers
Loading...
Nachshoniら(Sun,)がこの問題を研究しました。
www.synapsesocial.com/papers/68d913a34ddcf71ba560b7be — DOI: https://doi.org/10.48550/arxiv.2508.12355
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: