في هذه الدراسة المستعرضة التي شملت 21 نموذجًا لغويًا كبيرًا، حققت النماذج المتقدمة دقة عالية في التشخيص النهائي لكنها أدت أداء ضعيفًا في توليد التشخيصات التفريقية والتعامل مع عدم اليقين مقارنةً بالمراحل الأخرى من التفكير. قدم إطار PrIME-LLM فصلًا أعمق مقارنة بالدقة الخام، كاشفًا عن فجوات حرجة في عملية التفكير التي كانت مخفية بواسطة المؤشرات التقليدية. لذا، على الرغم من التحسينات المستندة إلى الإصدارات والمزايا في النماذج المحسنة للتفكير، لم تحقق النماذج اللغوية الكبيرة الجاهزة الذكاء المطلوب للنشر الآمن ولا تزال محدودة في إظهار التفكير السريري المتقدم.
Building similarity graph...
Analyzing shared references across papers
Loading...
Arya S. Rao
Kaiz P. Esmail
Richard S. Lee
JAMA Network Open
Harvard University
Brigham and Women's Hospital
Massachusetts General Hospital
Building similarity graph...
Analyzing shared references across papers
Loading...
درس راؤو وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/69df2b85e4eeef8a2a6b070b — DOI: https://doi.org/10.1001/jamanetworkopen.2026.4003
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: