Key points are not available for this paper at this time.
على الرغم من أن النماذج اللغوية الكبيرة غالباً ما تُنتج مخرجات مثيرة للإعجاب، إلا أنه لا يزال من غير الواضح كيف تؤدي في السيناريوهات الواقعية التي تتطلب مهارات استدلال قوية ومعرفة تخصصية خبيرة. شرعنا في التحقيق فيما إذا كان يمكن تطبيق النماذج المغلقة والمفتوحة المصدر (GPT-3.5، Llama 2، إلخ) للإجابة عن الأسئلة الواقعية الصعبة والاستنتاج بشأنها. نركز على ثلاث معايير طبية شائعة (MedQA-US Medical Licensing Examination USMLE، MedMCQA، وPubMedQA) وعدة سيناريوهات تحفيزية: سلسلة التفكير (CoT؛ التفكير خطوة بخطوة)، القليل من الأمثلة، والتعزيز بالاسترجاع. استنادًا إلى توصيف خبير لسلاسل التفكير المولدة، وجدنا أن InstructGPT يمكنه غالبًا القراءة، والاستدلال، واستدعاء المعرفة الخبيرة. وأخيرًا، من خلال الاستفادة من التقدم في هندسة التحفيز (طرق القليل من الأمثلة وأساليب التجميع)، أظهرنا أن GPT-3.5 لا ينتج فقط توزيعات توقعية معايرة بل يصل أيضًا إلى درجة النجاح في ثلاث مجموعات بيانات: MedQA-USMLE (60.2%)، MedMCQA (62.7%)، وPubMedQA (78.2%). النماذج مفتوحة المصدر تقلص الفجوة: حيث نجح Llama 2 70B أيضًا في MedQA-USMLE بدقة 62.5%.
Building similarity graph...
Analyzing shared references across papers
Loading...
Valentin Liévin
Christoffer Hother
Andreas Geert Motzfeldt
Patterns
University of Copenhagen
Technical University of Denmark
Rigshospitalet
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Liévin وآخرون (الجمعة) هذا السؤال.
www.synapsesocial.com/papers/68e7604eb6db6435876d7490 — DOI: https://doi.org/10.1016/j.patter.2024.100943
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: