Key points are not available for this paper at this time.
長期的なオープンドメイン対話に関する既存の研究は、5回以内のチャットセッションにまたがる文脈内でのモデル応答の評価に焦点を当てています。長文コンテキスト大規模言語モデル(LLM)や検索強化生成(RAG)技術の進歩にもかかわらず、非常に長期の対話におけるその有効性については未解明です。この研究課題に対応するために、LLMベースのエージェントアーキテクチャを活用し、その対話をペルソナと時間的イベントグラフに基づかせることで、高品質で非常に長期の対話を生成する機械-人間パイプラインを導入します。さらに、各エージェントには画像の共有および反応能力も備えさせています。生成された会話は、人間のアノテーターによって長期的な一貫性とイベントグラフへの根拠付けのために検証および編集されます。このパイプラインを用いて、最大35セッションにわたり平均300ターン、9Kトークンを含む非常に長期の会話データセット「LoCoMo」を収集しました。LoCoMoに基づき、質問応答、イベント要約、多モーダル対話生成タスクを含むモデルの長期記憶を測定する総合評価ベンチマークを提示します。実験結果は、LLMが長大な対話の理解や対話内の長期的な時間的・因果的動態の把握に課題を有していることを示しています。長文コンテキストのLLMやRAGなどの戦略を用いることで改善は見られますが、これらのモデルは依然として人間の性能に大きく劣っています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Adyasha Maharana
Dong-Ho Lee
Sergey Tulyakov
Building similarity graph...
Analyzing shared references across papers
Loading...
Maharana et al.(火曜)によってこの問題が研究されました。
www.synapsesocial.com/papers/68e77797b6db6435876ec154 — DOI: https://doi.org/10.48550/arxiv.2402.17753
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: