What question did this study set out to answer?

تفحص هذه الدراسة القدرات التشخيصية للنماذج اللغوية الكبيرة في مهام التفكير السريري.

April 15, 2026Open Access

أداء النماذج اللغوية الكبيرة ومهام التفكير السريري

Key Points

تفحص هذه الدراسة القدرات التشخيصية للنماذج اللغوية الكبيرة في مهام التفكير السريري.
تصميم مستعرض يقيم 21 نموذجًا لغويًا كبيرًا
مقارنة دقة التشخيص النهائي مقابل توليد التشخيص التفريقي
استخدام إطار PrIME-LLM للتقييم
حققت النماذج اللغوية الكبيرة المتقدمة دقة عالية في التشخيصات النهائية
كان الأداء ضعيفًا في توليد التشخيصات التفريقية والتعامل مع عدم اليقين
كشف إطار PrIME-LLM عن فجوات حرجة في التفكير لم تحددها المؤشرات التقليدية

Abstract

في هذه الدراسة المستعرضة التي شملت 21 نموذجًا لغويًا كبيرًا، حققت النماذج المتقدمة دقة عالية في التشخيص النهائي لكنها أدت أداء ضعيفًا في توليد التشخيصات التفريقية والتعامل مع عدم اليقين مقارنةً بالمراحل الأخرى من التفكير. قدم إطار PrIME-LLM فصلًا أعمق مقارنة بالدقة الخام، كاشفًا عن فجوات حرجة في عملية التفكير التي كانت مخفية بواسطة المؤشرات التقليدية. لذا، على الرغم من التحسينات المستندة إلى الإصدارات والمزايا في النماذج المحسنة للتفكير، لم تحقق النماذج اللغوية الكبيرة الجاهزة الذكاء المطلوب للنشر الآمن ولا تزال محدودة في إظهار التفكير السريري المتقدم.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Arya S. Rao

Kaiz P. Esmail

Richard S. Lee

Journals

JAMA Network Open

Actions

Institutions

Harvard University

Brigham and Women's Hospital

Massachusetts General Hospital

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

أداء النماذج اللغوية الكبيرة ومهام التفكير السريري

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider