Los puntos clave no están disponibles para este artículo en este momento.
Antecedentes Con la rápida evolución de la inteligencia artificial (IA), particularmente los modelos de lenguaje grandes (LLMs) como ChatGPT-4 (OpenAI), existe un interés creciente en su potencial para asistir en tareas académicas, incluyendo la realización de revisiones de literatura. Sin embargo, la eficacia de las revisiones generadas por IA en comparación con los enfoques tradicionales liderados por humanos sigue siendo poco explorada. Objetivo Este estudio tiene como objetivo comparar la calidad de las revisiones de literatura realizadas por el modelo ChatGPT-4 con aquellas realizadas por investigadores humanos, enfocándose en las dinámicas relacionales entre médicos y pacientes. Métodos Incluimos 2 revisiones de literatura en el estudio sobre el mismo tema, es decir, explorando factores que afectan las dinámicas relacionales entre médicos y pacientes en contextos medicolegales. Una revisión utilizó GPT-4, actualizada por última vez en septiembre de 2021, y la otra fue realizada por investigadores humanos. La revisión humana involucró una búsqueda exhaustiva de literatura utilizando encabezados de materia médica y palabras clave en Ovid MEDLINE, seguida de un análisis temático de la literatura para sintetizar la información de los artículos seleccionados. La revisión generada por IA utilizó un nuevo enfoque de ingeniería de indicaciones (prompt engineering), usando indicaciones iterativas y secuenciales para generar resultados. El análisis comparativo se basó en medidas cualitativas como precisión, tiempo de respuesta, consistencia, amplitud y profundidad del conocimiento, comprensión contextual y transparencia. Resultados GPT-4 produjo rápidamente una lista extensa de factores relacionales. El modelo de IA mostró una impresionante amplitud de conocimiento pero exhibió limitaciones en comprensión profunda y contextual, produciendo ocasionalmente información irrelevante o incorrecta. En comparación, los investigadores humanos proporcionaron una revisión más matizada y contextualmente relevante. El análisis comparativo evaluó las revisiones con base en criterios incluyendo precisión, tiempo de respuesta, consistencia, amplitud y profundidad del conocimiento, comprensión contextual y transparencia. Mientras GPT-4 mostró ventajas en tiempo de respuesta y amplitud de conocimiento, las revisiones dirigidas por humanos sobresalieron en precisión, profundidad del conocimiento y comprensión contextual. Conclusiones El estudio sugiere que GPT-4, con una ingeniería de indicaciones estructurada, puede ser una herramienta valiosa para realizar revisiones preliminares de literatura proporcionando un panorama amplio de temas rápidamente. Sin embargo, sus limitaciones requieren una evaluación experta cuidadosa y refinamiento, constituyéndose como un asistente más que un sustituto de la experiencia humana en revisiones de literatura comprehensivas. Además, esta investigación destaca el potencial y las limitaciones del uso de herramientas de IA como GPT-4 en la investigación académica, particularmente en los campos de servicios de salud e investigación médica. Subraya la necesidad de combinar las capacidades de recuperación rápida de información de la IA con la experiencia humana para obtener resultados académicos más precisos y contextualmente enriquecidos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mehrnaz Mostafapour
Jacqueline H. Fortier
Karen Pacheco
JMIR AI
Ottawa Hospital Research Institute
Ottawa University
Kingston University
Building similarity graph...
Analyzing shared references across papers
Loading...
Mostafapour et al. (Fri,) studied this question.
www.synapsesocial.com/papers/68e6761db6db6435875fffc5 — DOI: https://doi.org/10.2196/56537
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: