Key points are not available for this paper at this time.
Processar e raciocinar sobre contextos longos é crucial para muitas aplicações práticas de Grandes Modelos de Linguagem (LLMs), como compreensão de documentos e construção de agentes. Apesar dos avanços recentes em fazer LLMs processarem contextos com mais de 100K tokens, atualmente há uma falta de um benchmark padronizado para avaliar essa capacidade de contexto longo. Benchmarks públicos existentes geralmente se concentram em contextos em torno de 10K tokens, limitando a avaliação e comparação dos LLMs no processamento de contextos mais longos. Neste artigo, propomos o Bench, o primeiro benchmark de LLM com comprimento médio de dados superior a 100K tokens. Bench compreende tarefas sintéticas e realistas abrangendo diversos domínios, apresentadas em inglês e chinês. As tarefas no Bench são projetadas para requerer uma boa compreensão das longas dependências nos contextos, tornando insuficiente simplesmente recuperar um número limitado de passagens dos contextos para essas tarefas. Em nossos experimentos, baseados no Bench, avaliamos os LLMs proprietários e de código aberto mais avançados, voltados para o processamento de contextos longos. Os resultados indicam que os LLMs de contexto longo existentes ainda requerem avanços significativos para processar efetivamente contextos com mais de 100K tokens. Apresentamos ainda três análises intrigantes sobre o comportamento dos LLMs ao processar contextos longos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinrong Zhang
Yingfa Chen
Shengding Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e785a2b6db6435876f7f8a — DOI: https://doi.org/10.48550/arxiv.2402.13718
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: