Este estudio desarrolla un sistema RAG (Generación aumentada por recuperación) multimodal y adaptativo al dominio para mejorar la precisión y eficiencia de las respuestas a preguntas técnicas basadas en manuales estructurados a gran escala. Utilizando los documentos de mantenimiento de Hyundai Staria como caso de estudio, extraímos texto e imágenes de manuales en PDF y construimos conjuntos de datos QA, RAG y Multi-Turn para reflejar escenarios realistas de solución de problemas. Para superar las limitaciones de los modelos RAG base, propusimos una arquitectura mejorada que incorpora anotaciones de similitud a nivel de oración y ajuste fino eficiente en parámetros mediante LoRA (Adaptación de bajo rango) utilizando el modelo de lenguaje bLLossom-8B y el modelo de incrustación BAAI-bge-m3. Los resultados experimentales muestran que el sistema propuesto logró mejoras de 3.0%p en BERTScore, 3.0%p en similitud coseno, y 18.0%p en ROUGE-L en comparación con los sistemas RAG existentes, con ganancias notables en precisión de respuesta guiada por imágenes. Una evaluación cualitativa realizada por 20 expertos del dominio arrojó una puntuación media de satisfacción de 4.4 sobre 5. Este estudio presenta un marco práctico y extensible de IA para el entendimiento multimodal de documentos, con amplia aplicabilidad en la documentación técnica automotriz, industrial y relacionada con la defensa.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yerin Nam
Hyeung‐Sik Choi
Jonggeun Choi
Applied Sciences
Seoul National University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Nam et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68c1aad354b1d3bfb60e3a73 — DOI: https://doi.org/10.3390/app15158387
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: