August 21, 2024Open Access

Mejorando la precisión de los resultados de GPT-3/4 en datos biomédicos usando un modelo de lenguaje aumentado con recuperación

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje grandes (LLMs) han tenido un impacto significativo en los campos de la inteligencia artificial general. Los LLMs de propósito general exhiben fuertes habilidades de lógica y razonamiento y conocimiento general del mundo, pero a veces pueden generar resultados engañosos cuando se les solicita información sobre áreas temáticas específicas. Los LLMs entrenados con conocimientos específicos del dominio pueden reducir la generación de información engañosa (es decir, alucinaciones) y mejorar la precisión de los LLMs en contextos especializados. Sin embargo, entrenar nuevos LLMs en corpus específicos puede consumir muchos recursos. Aquí exploramos el uso de un modelo de generación aumentado con recuperación (RAG) que probamos en literatura específica del área de investigación biomédica. Se utilizaron GPT-3.5 y GPT-4 de OpenAI, Prometheus de Microsoft y un modelo RAG personalizado para responder 19 preguntas relacionadas con la biología y el tratamiento del linfoma difuso de células B grandes (DLBCL). Ocho revisores independientes evaluaron las respuestas de los LLMs según su precisión, relevancia y legibilidad, calificando las respuestas en una escala de 3 puntos para cada categoría. Estas puntuaciones se usaron para comparar el desempeño de los LLMs. El desempeño de los LLMs varió entre las categorías de puntuación. En precisión y relevancia, el modelo RAG superó a los demás con puntuaciones promedio más altas y la mayor cantidad de puntuaciones máximas a lo largo de las preguntas. GPT-4 fue más comparable al modelo RAG en relevancia que en precisión. Según las mismas medidas, GPT-4 y GPT-3.5 obtuvieron las puntuaciones más altas en legibilidad de respuestas en comparación con los otros LLMs. GPT-4 y 3.5 también tuvieron más respuestas con alucinaciones que los demás LLMs, debido a referencias inexistentes y respuestas inexactas a preguntas clínicas. Nuestros hallazgos sugieren que un modelo RAG enfocado en investigación oncológica puede superar a los LLMs de propósito general en precisión y relevancia al responder preguntas relacionadas con el tema. Este marco puede adaptarse para preguntas y respuestas en otras áreas temáticas. Investigaciones futuras ayudarán a entender el impacto de las arquitecturas LLM, metodologías RAG y técnicas de prompting en respuestas a preguntas en diferentes áreas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

David S. Soong

Sriram Sridhar

Han Si

Journals

PLOS Digital Health

Actions

Institutions

Genmab (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mejorando la precisión de los resultados de GPT-3/4 en datos biomédicos usando un modelo de lenguaje aumentado con recuperación

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider