What type of study is this?

October 16, 2025Open Access

LLMは反事実的に自らを説明できるか？

Key Points

大規模言語モデルからの自己生成反事実的説明は、しばしば正確性と一貫性に欠ける。
複数のモデルファミリーでのテストにより、反事実的出力生成における不整合が明らかになった。
モデルの温度設定が説明の質に影響を与え、繊細な調整が必要であることを示唆している。
これらの知見は、言語モデルの自己説明機能を向上させるための改良手法が必要であることを示している。

Abstract

説明は、機械学習モデルの挙動の洞察を得るため、ユーザーの信頼を調整するため、そして規制遵守を確保するための重要な手段です。過去数年間、多くの事後解析的説明手法が登場しましたが、その多くはモデルの勾配の計算や特別に設計された最適化問題の解決を伴います。しかし、Large Language Model（LLM）の著しい推論能力により、モデル自身に出力の説明を促す自己説明という新たなパラダイムが最近注目されています。本研究では、自己生成された反事実的説明（SCE）という特定の自己説明のタイプを検討します。LLMがSCEを生成する効果を測定するテストを設計しました。様々なLLMファミリー、モデルサイズ、温度設定、データセットでの分析により、LLMは時にSCEの生成に苦戦し、たとえ生成できても、その予測は自身の反事実的推論と一致しないことが明らかになりました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zahra Dehghanighobadi

Asja Fischer

Muhammad Bilal Zafar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLMは反事実的に自らを説明できるか？

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider