February 27, 2024Open Access

LLMエージェントの非常に長期的な会話記憶の評価

Key Points

Key points are not available for this paper at this time.

Abstract

長期的なオープンドメイン対話に関する既存の研究は、5回以内のチャットセッションにまたがる文脈内でのモデル応答の評価に焦点を当てています。長文コンテキスト大規模言語モデル（LLM）や検索強化生成（RAG）技術の進歩にもかかわらず、非常に長期の対話におけるその有効性については未解明です。この研究課題に対応するために、LLMベースのエージェントアーキテクチャを活用し、その対話をペルソナと時間的イベントグラフに基づかせることで、高品質で非常に長期の対話を生成する機械-人間パイプラインを導入します。さらに、各エージェントには画像の共有および反応能力も備えさせています。生成された会話は、人間のアノテーターによって長期的な一貫性とイベントグラフへの根拠付けのために検証および編集されます。このパイプラインを用いて、最大35セッションにわたり平均300ターン、9Kトークンを含む非常に長期の会話データセット「LoCoMo」を収集しました。LoCoMoに基づき、質問応答、イベント要約、多モーダル対話生成タスクを含むモデルの長期記憶を測定する総合評価ベンチマークを提示します。実験結果は、LLMが長大な対話の理解や対話内の長期的な時間的・因果的動態の把握に課題を有していることを示しています。長文コンテキストのLLMやRAGなどの戦略を用いることで改善は見られますが、これらのモデルは依然として人間の性能に大きく劣っています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Adyasha Maharana

Dong-Ho Lee

Sergey Tulyakov

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLMエージェントの非常に長期的な会話記憶の評価

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider