بينما تُظهر نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) تقدمًا ملحوظًا في الاستدلال، فإن تطبيقها في المجالات العلمية المتخصصة مثل الفيزياء يكشف عن فجوات كبيرة في مقاييس التقييم الحالية. على وجه التحديد، غالبًا ما تفتقر المقاييس الموجودة إلى تغطية موضوعية دقيقة، وتتجاهل عملية الاستدلال خطوة بخطوة، كما أنها تركز بشكل أساسي على اللغة الإنجليزية، مما يفشل في تقييم دور المعلومات البصرية بشكل منهجي. لذلك، نقدم معيار Multi-Physics للاستدلال الفيزيائي باللغة الصينية، وهو معيار شامل يشمل 5 مستويات صعوبة، ويتضمن 1412 سؤالًا متعدد الخيارات مرتبطًا بالصور يغطي 11 موضوعًا فيزياء لمرحلة التعليم الثانوي. نستخدم إطار تقييم ثنائي لتقييم 20 نموذجًا مختلفًا من MLLMs، حيث نحلل دقة الإجابة النهائية وسلامة سلسلة التفكير خطوة بخطوة. علاوة على ذلك، ندرس بشكل منهجي تأثير مستوى الصعوبة والمعلومات البصرية من خلال مقارنة أداء النماذج قبل وبعد تغيير وضع الإدخال. يوفر عملنا ليس فقط مصدرًا دقيقًا للمجتمع البحثي، بل يقدم أيضًا منهجية قوية لتفكيك عملية الاستدلال متعددة الأنماط لنماذج اللغة الكبيرة المتطورة، كما أن بياناتنا البرمجية قد تم إصدارها كمصدر مفتوح: https: //github. com/luozhongze/Multi-Physics.
Building similarity graph...
Analyzing shared references across papers
Loading...
Z.-Q. Luo
Yin Zhou
Yong‐Xin Guo
Building similarity graph...
Analyzing shared references across papers
Loading...
درس لوو وآخرون (الجُمعة) هذا السؤال.
www.synapsesocial.com/papers/68de6f4283cbc991d0a22ec8 — DOI: https://doi.org/10.48550/arxiv.2509.15839
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: