What question did this study set out to answer?

心臓関連テキストを用いて生物医学大規模言語モデルにおける誤情報の発生率を評価することを目的とする。

March 12, 2026Open Access

生物医学LLMにおける誤情報（幻覚）検出

Key Points

心臓関連テキストを用いて生物医学大規模言語モデルにおける誤情報の発生率を評価することを目的とする。
循環器学に焦点を当てた様々な生物医学LLMの体系的評価。
BioMistralやMEDITRONを含むモデルの事実精度の分析。
HHEM、AlignScore、MiniCheckという三つの自動評価指標の利用。
異なるLLMモデル間で誤情報率に著しいばらつきが認められた。
複数の評価指標が事実の一貫性の評価に有効であることが証明された。
堅牢な誤情報対策戦略の必要性についての知見を提供。

Abstract

大規模言語モデル（LLM）は要約を含む自然言語生成タスクにおいて顕著な能力を示している。しかし、事実と異なる、もしくは根拠のないもっともらしい内容（幻覚）を生成する傾向があり、特に生物医学などの重要な分野では深刻なリスクとなる。本論文ではPubMedから取得した生物医学テキスト、特に循環器学分野に焦点を当て、ドメイン特化型LLMにおける誤情報の体系的評価を行う。BioMistralやMEDITRONの複数のバリアントを含む多様なオープンソースの生物医学モデルを対象に、生成された要約の事実性を評価した。誤情報評価には、VectaraのHallucination Evaluation Model（HHEM）、AlignScore、MiniCheckという三つの自動評価指標を用いた。結果はモデル間で誤情報発生率に大きな差があることを示し、事実の正確性を評価するために複数の検出器を併用する有効性を明らかにした。我々の分析は生物医学LLMにおけるトレードオフの理解を深め、その運用における厳密な誤情報対策の必要性を強調する。本研究は、生物医学分野におけるLLMのより安全かつ信頼性の高い利用を支援するための構造化されたベンチマーキング手法と実証的知見を提供する。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Χρήστος Γ. Βράνης

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

生物医学LLMにおける誤情報（幻覚）検出

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider