What question did this study set out to answer?

L'objectif est d'améliorer les réponses aux questions de connaissance dans le domaine de l'électricité en utilisant la technologie de génération augmentée par récupération.

February 17, 2026Open Access

Génération augmentée par récupération de documents virtuels pour les questions-réponses dans les bases de connaissances du domaine de l'électricité avec une robustesse améliorée par le bruit

Key Points

L'objectif est d'améliorer les réponses aux questions de connaissance dans le domaine de l'électricité en utilisant la technologie de génération augmentée par récupération.
Utilisation d'un LLM pour générer des documents hypothétiques.
Combinaison des questions originales avec les documents générés pour une recherche de similarité.
Traitement du contenu combiné pour récupérer des documents pertinents dans une approche de génération en deux étapes.
Amélioration de l'attention aux documents pertinents en incorporant des documents non pertinents dans le contexte.
Réalisation d'expériences sur les jeux de données électricité et CMRC.
Amélioration de 4,63 % de la métrique ROUGE-L par rapport à la méthode RAG naïve.
Obtention d'une amélioration de 11,32 % de la métrique BLEU-4 sur le jeu de données électricité.
Validation de l'efficacité sur le jeu de données public CMRC.

Abstract

La technologie de génération augmentée par récupération (RAG) permet aux grands modèles de langage (LLM) d'accéder à des bases de connaissances externes en introduisant des documents externes, améliorant ainsi leur capacité à répondre à des questions de connaissance dans des domaines professionnels et à générer des réponses plus fiables. Elle traite efficacement des problèmes tels que les hallucinations des LLM et l'obsolescence des connaissances. Dans le domaine de l'électricité, la technologie RAG peut être exploitée pour utiliser pleinement les données et ressources accumulées par l'entreprise. Cependant, lors de la phase de récupération de RAG, il existe des différences significatives dans la représentation de l'espace sémantique entre les phrases courtes et les documents textuels longs. De plus, lors de la génération de réponses basées sur les documents pertinents récupérés, le générateur privilégie les fragments de documents très pertinents, une stratégie qui peut négliger les documents sous-pertinents contenant des informations utiles. Cet article utilise un LLM pour générer des documents hypothétiques. Ces documents sont combinés avec la question originale pour effectuer une recherche de similarité dans le corpus, suivie de la première phase de génération de réponse. Ensuite, la question originale est combinée avec la réponse générée lors du premier tour, et ce contenu combiné est utilisé pour récupérer des documents pertinents. Enfin, des documents non pertinents sont ajoutés au contexte des documents pertinents récupérés pour renforcer l'attention du LLM sur ces derniers. Sur la base des stratégies ci-dessus, des expériences sont menées sur le jeu de données électricité. Les résultats montrent que, comparé à la méthode RAG naïve, le modèle proposé obtient une amélioration relative de 4,63 % sur la métrique ROUGE-L et de 11,32 % sur la métrique BLEU-4 du jeu de données électricité. Par ailleurs, des expériences sont également réalisées sur le jeu de données public CMRC, confirmant l'efficacité de la méthode proposée.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yanwen Chen

Xiong Luo

Ying Zhou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Génération augmentée par récupération de documents virtuels pour les questions-réponses dans les bases de connaissances du domaine de l'électricité avec une robustesse améliorée par le bruit

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study