大規模言語モデル(LLM)は要約を含む自然言語生成タスクにおいて顕著な能力を示している。しかし、事実と異なる、もしくは根拠のないもっともらしい内容(幻覚)を生成する傾向があり、特に生物医学などの重要な分野では深刻なリスクとなる。本論文ではPubMedから取得した生物医学テキスト、特に循環器学分野に焦点を当て、ドメイン特化型LLMにおける誤情報の体系的評価を行う。BioMistralやMEDITRONの複数のバリアントを含む多様なオープンソースの生物医学モデルを対象に、生成された要約の事実性を評価した。誤情報評価には、VectaraのHallucination Evaluation Model(HHEM)、AlignScore、MiniCheckという三つの自動評価指標を用いた。結果はモデル間で誤情報発生率に大きな差があることを示し、事実の正確性を評価するために複数の検出器を併用する有効性を明らかにした。我々の分析は生物医学LLMにおけるトレードオフの理解を深め、その運用における厳密な誤情報対策の必要性を強調する。本研究は、生物医学分野におけるLLMのより安全かつ信頼性の高い利用を支援するための構造化されたベンチマーキング手法と実証的知見を提供する。
Building similarity graph...
Analyzing shared references across papers
Loading...
Χρήστος Γ. Βράνης
Building similarity graph...
Analyzing shared references across papers
Loading...
Χρήστος Γ. Βράνης(Wed,)がこの問題を研究した。
www.synapsesocial.com/papers/69b25aea96eeacc4fcec927b — DOI: https://doi.org/10.26262/heal.auth.ir.370325
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: