Cet article présente des preuves empiriques issues d'un benchmark de 2 100 points de données auprès de trois LLMs de pointe (Claude Sonnet 4, GPT-4o, Gemini 2.0 Flash) démontrant que le débat dans l'industrie de l'IA sur le format de fichier pour la mémoire des LLM — markdown vs. représentations structurées — porte sur un mauvais problème. Au stade 1 (N=900), des faits identiques encodés en markdown plat versus contexte relationnel structuré ont produit une précision statistiquement équivalente (Δ = -0,004). Au stade 2 (N=1 200), le markdown en contexte complet a significativement surpassé vector RAG, GraphRAG et la récupération hybride sur des requêtes stratégiques (0,964 vs. 0,888–0,904, p < 0,004). L'analyse révèle que cet avantage découle de la complétude de l'information : les conditions de récupération éliminaient 84–90 % du contexte disponible. L'article synthétise ces résultats avec les recherches en neurosciences sur la mémoire reconstructive, le benchmark data.world knowledge graph, et des preuves en production issues de systèmes multi-agents pour soutenir que la contrainte limitante pour le raisonnement des LLM n'est pas le format mais la perte d'information durant la récupération — et que, à l'échelle de la production, où les corpus dépassent les fenêtres de contexte, l'architecture de récupération devient le facteur déterminant. Le dépôt associé comprend tout le code, le corpus test de 50 documents, 50 requêtes avec des grilles de notation déterministes, et les résultats bruts complets pour une reproduction indépendante. Coût total pour la réplication : moins de 30.
John R. Williams (Tue,) a étudié cette question.