大型语言模型(LLMs)在根本上受限于其上下文窗口——单次推理会话中可在活动工作记忆中持有的信息最大量。当达到上下文限制时,系统会压缩或丢弃早期内容,破坏连续性和累积知识。本文介绍STAR(结构化树与主动检索),一种分层记忆架构,将知识存储与主动推理上下文解耦。STAR维护一个以轻量语义标签索引的持久文件存储系统,这些标签永久占据活动上下文窗口的一小部分保留空间。当需要相关内容时,该内容按需检索到专门的检索区,使用后带更新返回存储。该架构使得上下文窗口受限的模型能够访问比其本地上下文大小大数个数量级的知识库。配备STAR的Gemma 4 E4B模型,具有128K令牌上下文窗口,可访问多达3910万个条理清晰的持久知识——约为200万令牌平铺上下文模型可访问知识的20倍。STAR与模型无关,硬件可扩展,且可在现有LLM基础设施上部署,无需再训练。
Building similarity graph...
Analyzing shared references across papers
Loading...
Joshua Knoechelma
Chronos Technology (United Kingdom)
Building similarity graph...
Analyzing shared references across papers
Loading...
Joshua Knoechelma(Sun,)研究了该问题。
www.synapsesocial.com/papers/69d49fe5b33cc4c35a228517 — DOI: https://doi.org/10.5281/zenodo.19430942
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: