Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje grandes (LLMs) han tenido un impacto significativo en los campos de la inteligencia artificial general. Los LLMs de propósito general exhiben fuertes habilidades de lógica y razonamiento y conocimiento general del mundo, pero a veces pueden generar resultados engañosos cuando se les solicita información sobre áreas temáticas específicas. Los LLMs entrenados con conocimientos específicos del dominio pueden reducir la generación de información engañosa (es decir, alucinaciones) y mejorar la precisión de los LLMs en contextos especializados. Sin embargo, entrenar nuevos LLMs en corpus específicos puede consumir muchos recursos. Aquí exploramos el uso de un modelo de generación aumentado con recuperación (RAG) que probamos en literatura específica del área de investigación biomédica. Se utilizaron GPT-3.5 y GPT-4 de OpenAI, Prometheus de Microsoft y un modelo RAG personalizado para responder 19 preguntas relacionadas con la biología y el tratamiento del linfoma difuso de células B grandes (DLBCL). Ocho revisores independientes evaluaron las respuestas de los LLMs según su precisión, relevancia y legibilidad, calificando las respuestas en una escala de 3 puntos para cada categoría. Estas puntuaciones se usaron para comparar el desempeño de los LLMs. El desempeño de los LLMs varió entre las categorías de puntuación. En precisión y relevancia, el modelo RAG superó a los demás con puntuaciones promedio más altas y la mayor cantidad de puntuaciones máximas a lo largo de las preguntas. GPT-4 fue más comparable al modelo RAG en relevancia que en precisión. Según las mismas medidas, GPT-4 y GPT-3.5 obtuvieron las puntuaciones más altas en legibilidad de respuestas en comparación con los otros LLMs. GPT-4 y 3.5 también tuvieron más respuestas con alucinaciones que los demás LLMs, debido a referencias inexistentes y respuestas inexactas a preguntas clínicas. Nuestros hallazgos sugieren que un modelo RAG enfocado en investigación oncológica puede superar a los LLMs de propósito general en precisión y relevancia al responder preguntas relacionadas con el tema. Este marco puede adaptarse para preguntas y respuestas en otras áreas temáticas. Investigaciones futuras ayudarán a entender el impacto de las arquitecturas LLM, metodologías RAG y técnicas de prompting en respuestas a preguntas en diferentes áreas.
Building similarity graph...
Analyzing shared references across papers
Loading...
David S. Soong
Sriram Sridhar
Han Si
PLOS Digital Health
Genmab (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Soong et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e5b740b6db64358754f6b7 — DOI: https://doi.org/10.1371/journal.pdig.0000568
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: