February 21, 2024Open Access

Bench: Extensão da Avaliação de Contexto Longo para Além de 100K Tokens

Key Points

Key points are not available for this paper at this time.

Abstract

Processar e raciocinar sobre contextos longos é crucial para muitas aplicações práticas de Grandes Modelos de Linguagem (LLMs), como compreensão de documentos e construção de agentes. Apesar dos avanços recentes em fazer LLMs processarem contextos com mais de 100K tokens, atualmente há uma falta de um benchmark padronizado para avaliar essa capacidade de contexto longo. Benchmarks públicos existentes geralmente se concentram em contextos em torno de 10K tokens, limitando a avaliação e comparação dos LLMs no processamento de contextos mais longos. Neste artigo, propomos o Bench, o primeiro benchmark de LLM com comprimento médio de dados superior a 100K tokens. Bench compreende tarefas sintéticas e realistas abrangendo diversos domínios, apresentadas em inglês e chinês. As tarefas no Bench são projetadas para requerer uma boa compreensão das longas dependências nos contextos, tornando insuficiente simplesmente recuperar um número limitado de passagens dos contextos para essas tarefas. Em nossos experimentos, baseados no Bench, avaliamos os LLMs proprietários e de código aberto mais avançados, voltados para o processamento de contextos longos. Os resultados indicam que os LLMs de contexto longo existentes ainda requerem avanços significativos para processar efetivamente contextos com mais de 100K tokens. Apresentamos ainda três análises intrigantes sobre o comportamento dos LLMs ao processar contextos longos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xinrong Zhang

Yingfa Chen

Shengding Hu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bench: Extensão da Avaliação de Contexto Longo para Além de 100K Tokens

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider