March 3, 2026Open Access

الأداء المقارن لـ GPT-4 و GPT-o3 و GPT-5 و Gemini-3-Flash و DeepSeek-R1 في الإجابة على أسئلة طب العيون

Key Points

تكشف الإجابة على أسئلة طب العيون عن أداء متفوق من GPT-o3 و Gemini-3-Flash في دعم اتخاذ القرار السريري.
من الجدير بالذكر أن GPT-5 لم يتجاوز دقة أو استقرار سلفه في الأسئلة الطبية.
يُظهر التقييم باستخدام نماذج اللغة الكبيرة أن لهندسة المطالبات تأثيرًا محدودًا على الاستفسارات ذات الإجابات المغلقة.
يجب أن يركز البحث المستقبلي على التكامل متعدد الوسائط والتحقق في بيئات الرعاية الصحية الحقيقية.

Abstract

يحرز GPT-o3 و Gemini-3-Flash استقرارًا ودقة متفوقة في الإجابة على أسئلة طب العيون، مما يجعلهما مناسبين لدعم اتخاذ القرار السريري عالي المخاطر. يظهر النموذج مفتوح المصدر DeepSeek-R1 قدرة تنافسية خاصة في المهام المعقدة. من الجدير بالملاحظة أن GPT-5 لم يتمكن من التفوق على سلفه في الدقة أو الاتساق في هذا المجال المتخصص. لهندسة المطالبات تأثير محدود على الأداء في الأسئلة الطبية ذات الإجابات المغلقة. ينبغي أن تمتد الأبحاث المستقبلية إلى التكامل متعدد الوسائط والتحقق السريري في العالم الواقعي لتعزيز الفائدة العملية وموثوقية نماذج اللغة الكبيرة في الطب.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ping Zhang

Jiaoman Wang

Xinya Hu

Journals

Frontiers in Cell and Developmental Biology

Actions

Institutions

Wenzhou Medical University

Shenzhen Second People's Hospital

Affiliated Eye Hospital of Wenzhou Medical College

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

الأداء المقارن لـ GPT-4 و GPT-o3 و GPT-5 و Gemini-3-Flash و DeepSeek-R1 في الإجابة على أسئلة طب العيون

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study