Key points are not available for this paper at this time.
科学的主張は命題を事実として提示し、科学知識の基盤となります。重要性にもかかわらず、現行の科学的主張認識手法は、特に抄録だけでなく全文書類を対象とする注釈付きデータセットの不足に制約されています。このギャップを埋めるため、本研究は段階的ファインチューニングアプローチによる転移学習を活用し、科学的主張認識の向上を目指します。具体的には、大規模ムーブ予測データセットRCMR 280kと、我々が開発した小規模なSciClaimデータセットを併用し、研究論文内のさまざまなタイプの科学的ナラティブおよびその役割の区別能力を強化します。両データセットのラベル付き文を質問応答形式に変換し、大規模言語モデルのファインチューニング要件に合わせました。ファインチューニング過程では、知識の段階的統合に関する二つの異なる戦略を検討します。結果は、RCMR 280kデータセットで訓練したLoRAを元モデルに再統合し、その後にSciClaim用の新規LoRAを作成する方法が最良の成果をもたらすことを示しています。この段階的ファインチューニング法は、科学的主張認識タスクへの効率的なモデル適応を実現します。我々のモデルSciClaim Minerは最先端手法を上回り、F1スコア90.96%を達成しました。アブレーション研究により、データセットおよびプロンプト設計、モデル訓練戦略の双方が性能向上に大きく寄与することが示されています。本研究は、限られたデータと効果的なモデル訓練のギャップを埋める堅牢な方法論を導入し、科学的主張認識の発展に貢献します。
Linら(Fri,)はこの問題を研究しました。