What question did this study set out to answer?

Esta revisión se centra en el uso de grandes modelos de lenguaje como jueces evaluativos en entornos sanitarios, particularmente en la documentación clínica.

January 18, 2026Open Access

Autoridad Artificial: Las promesas y peligros de los jueces LLM en la atención sanitaria

Puntos clave

Esta revisión se centra en el uso de grandes modelos de lenguaje como jueces evaluativos en entornos sanitarios, particularmente en la documentación clínica.
Revisión narrativa de la literatura existente
Examen de arquitecturas de juicio LLM
Análisis de estrategias de validación
Síntesis de metodologías para evaluaciones clínicas
Los jueces LLM se alinean estrechamente con clínicos en criterios objetivos como factualidad y consistencia.
La evaluación estructurada y el encadenamiento de razonamiento mejoran el desempeño de los LLM.
Los LLM pueden superar el acuerdo interclínico en ciertas tareas, pero tienen dificultades con juicios subjetivos.
La calidad del conjunto de datos y la especificidad de la tarea limitan la eficacia de los LLM en algunas evaluaciones.

Resumen

Antecedentes: Los grandes modelos de lenguaje (LLMs) se integran cada vez más en la documentación clínica, el soporte de decisiones y las aplicaciones para pacientes en toda la atención sanitaria, incluida la cirugía plástica y reconstructiva. Sin embargo, su evaluación sigue siendo un cuello de botella debido a la revisión humana costosa y que consume mucho tiempo. Esto ha dado lugar al concepto de LLM como juez, en el que los LLMs se usan para evaluar los resultados de otros sistemas de IA. Métodos: Esta revisión examina el uso de LLM como juez en la atención sanitaria, prestando especial atención a las arquitecturas de juicio, estrategias de validación y aplicaciones emergentes. Se realizó una revisión narrativa de la literatura, sintetizando metodologías de jueces LLM así como paradigmas de juicio, incluyendo aquellos aplicados a la documentación clínica, sistemas médicos de preguntas y respuestas, y evaluación de conversaciones clínicas. Resultados: En las tareas, los jueces LLM se alinean más estrechamente con los clínicos en criterios objetivos (p. ej., factualidad, gramática, consistencia interna), se benefician de una evaluación estructurada y del encadenamiento de razonamiento (chain-of-thought prompting), y pueden aproximarse o superar el acuerdo entre clínicos, pero siguen siendo limitados para juicios subjetivos o afectivos y por la calidad del conjunto de datos y la especificidad de la tarea. Conclusiones: La literatura indica que los jueces LLM pueden posibilitar evaluaciones eficientes y estandarizadas en entornos controlados; sin embargo, su rol apropiado sigue siendo de apoyo más que sustitutivo, y su desempeño puede no generalizarse a entornos complejos de cirugía plástica. Su uso seguro depende de una supervisión humana rigurosa y estructuras explícitas de gobernanza.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ariana Genovese

Lars Hegstrom

Srinivasagam Prabha

Journals

Bioengineering

Actions

Institutions

Mayo Clinic

Mayo Clinic in Arizona

Mayo Clinic in Florida

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Autoridad Artificial: Las promesas y peligros de los jueces LLM en la atención sanitaria

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider