Key points are not available for this paper at this time.
大型言語モデル(LLMs)は、一般的な人工知能の分野に大きな影響を与えています。汎用LLMsは強力な論理性と推論能力、一般的な世界知識を示しますが、特定の主題分野でプロンプトを与えられた際に誤解を招く結果を生成することがあります。ドメイン特有の知識で訓練されたLLMsは、誤情報(すなわち幻覚)の生成を減らし、専門的な文脈におけるLLMsの精度を高めることができます。しかし特定のコーパスで新たなLLMsを訓練することは、リソースを多く消費します。本研究では、生物医学研究領域に特化した文献を用いて試験したリトリーバル・オーグメンテッド生成(RAG)モデルの利用を検討しました。OpenAIのGPT-3.5、GPT-4、MicrosoftのPrometheus、およびカスタムRAGモデルを使って、びまん性大細胞型B細胞リンパ腫(DLBCL)の疾患生物学と治療に関する19の質問に回答しました。8人の独立した評価者が、正確性、関連性、可読性に基づき、各カテゴリについて3点尺度で回答を評価しました。これらのスコアを用いてLLMsの性能を比較しました。各LLMsの性能は評価カテゴリによって異なりました。正確性と関連性に関して、RAGモデルは他のモデルより平均して高得点かつ質問ごとに最も多くトップスコアを獲得しました。GPT-4は関連性においてRAGモデルに近いスコアを示しましたが、正確性では及びませんでした。同じ基準で、GPT-4とGPT-3.5は他のLLMsと比較し回答の可読性で最高得点を示しました。GPT-4と3.5は他のLLMsより多くの幻覚を含む回答(存在しない文献引用や臨床質問への不正確な回答)が見られました。我々の知見は、腫瘍学研究に特化したRAGモデルが主題関連質問の回答において汎用LLMsより精度と関連性で優れる可能性を示唆しています。この枠組みは他の主題分野のQ&Aにも応用可能です。LLMのアーキテクチャ、RAG手法、およびプロンプト技術が異分野の質問回答に与える影響を理解するためには更なる研究が必要です。
Building similarity graph...
Analyzing shared references across papers
Loading...
David S. Soong
Sriram Sridhar
Han Si
PLOS Digital Health
Genmab (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Soongら(Wed,)はこの質問を研究しました。
www.synapsesocial.com/papers/68e5b740b6db64358754f6b7 — DOI: https://doi.org/10.1371/journal.pdig.0000568
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: