Antecedentes: Los grandes modelos de lenguaje (LLMs) se integran cada vez más en la documentación clínica, el soporte de decisiones y las aplicaciones para pacientes en toda la atención sanitaria, incluida la cirugía plástica y reconstructiva. Sin embargo, su evaluación sigue siendo un cuello de botella debido a la revisión humana costosa y que consume mucho tiempo. Esto ha dado lugar al concepto de LLM como juez, en el que los LLMs se usan para evaluar los resultados de otros sistemas de IA. Métodos: Esta revisión examina el uso de LLM como juez en la atención sanitaria, prestando especial atención a las arquitecturas de juicio, estrategias de validación y aplicaciones emergentes. Se realizó una revisión narrativa de la literatura, sintetizando metodologías de jueces LLM así como paradigmas de juicio, incluyendo aquellos aplicados a la documentación clínica, sistemas médicos de preguntas y respuestas, y evaluación de conversaciones clínicas. Resultados: En las tareas, los jueces LLM se alinean más estrechamente con los clínicos en criterios objetivos (p. ej., factualidad, gramática, consistencia interna), se benefician de una evaluación estructurada y del encadenamiento de razonamiento (chain-of-thought prompting), y pueden aproximarse o superar el acuerdo entre clínicos, pero siguen siendo limitados para juicios subjetivos o afectivos y por la calidad del conjunto de datos y la especificidad de la tarea. Conclusiones: La literatura indica que los jueces LLM pueden posibilitar evaluaciones eficientes y estandarizadas en entornos controlados; sin embargo, su rol apropiado sigue siendo de apoyo más que sustitutivo, y su desempeño puede no generalizarse a entornos complejos de cirugía plástica. Su uso seguro depende de una supervisión humana rigurosa y estructuras explícitas de gobernanza.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ariana Genovese
Lars Hegstrom
Srinivasagam Prabha
Bioengineering
Mayo Clinic
Mayo Clinic in Arizona
Mayo Clinic in Florida
Building similarity graph...
Analyzing shared references across papers
Loading...
Genovese et al. (vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/696c785beb60fb80d13968bd — DOI: https://doi.org/10.3390/bioengineering13010108
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: