February 21, 2024Open Access

Bench：100Kトークンを超える長文コンテキスト評価の拡張

Key Points

Key points are not available for this paper at this time.

Abstract

長文コンテキストの処理と推論は、ドキュメント理解やエージェント構築など、Large Language Models（LLMs）の多くの実用的応用にとって極めて重要です。最近ではLLMsが100Kトークン以上のコンテキストを処理できるようになってきていますが、この長文コンテキスト能力を評価する標準化されたベンチマークは現在存在しません。既存の公開ベンチマークは通常約10Kトークンのコンテキストに焦点を当てており、より長いコンテキストの処理におけるLLMsの評価や比較には限界があります。本論文では、平均データ長が100Kトークンを超える初のLLMベンチマークであるBenchを提案します。Benchは、多様な領域を網羅した合成および現実的タスクで構成され、英語と中国語の両方で提示されます。Benchのタスクは、コンテキスト内の長い依存関係を十分に理解することを要求し、単に限定された数のパッセージを検索するだけでは不十分となる設計です。我々の実験では、Benchに基づいて長文コンテキストの処理を目的とした最先端の商用およびオープンソースLLMsを評価しました。結果は、現存の長文コンテキストLLMsが100Kトークン以上のコンテキストを効果的に処理するにはなお大幅な改善が必要であることを示しています。さらに、長文コンテキスト処理時のLLMsの挙動に関する3つの興味深い分析を提示します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xinrong Zhang

Yingfa Chen

Shengding Hu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bench：100Kトークンを超える長文コンテキスト評価の拡張

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider