Key points are not available for this paper at this time.
في مقاييس التقييم الحالية لنماذج اللغة الكبيرة (LLMs)، توجد مشاكل مثل تقييد محتوى التقييم، والتحديثات غير الملائمة في الوقت المناسب، ونقص التوجيه الأمثل. في هذا الورق، نقترح نموذجًا جديدًا لقياس نماذج اللغة الكبيرة: المقارنة المرجعية - التقييم - التقويم. يُحوّل نموذجنا "مكان" تقييم نماذج اللغة الكبيرة من "غرفة الامتحان" إلى "المستشفى". من خلال إجراء "الفحص الطبي" على نماذج اللغة الكبيرة، يستخدم حل المهام المحددة كمحتوى للتقييم، ويُجري تحليلًا عميقًا للمشكلات القائمة داخل نماذج اللغة الكبيرة، ويقدم توصيات للتحسين.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jin Liu
Qingquan Li
Wenlong Du
Building similarity graph...
Analyzing shared references across papers
Loading...
درس ليو وزملاؤه (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68e60ce9b6db6435875a0454 — DOI: https://doi.org/10.48550/arxiv.2407.07531
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: