Key points are not available for this paper at this time.
تشخيص وإدارة المريض هو عملية اتخاذ قرار معقدة ومتسلسلة تتطلب من الأطباء الحصول على معلومات — مثل الاختبارات التي ينبغي إجراؤها — واتخاذ الإجراءات بناءً عليها. تَعِد التطورات الحديثة في الذكاء الاصطناعي (AI) ونماذج اللغة الكبيرة (LLMs) بأن يكون لها تأثير عميق على الرعاية السريرية. ومع ذلك، تعتمد مخططات التقييم الحالية بشكل مفرط على معايير الأسئلة الطبية والإجابات الثابتة، مما يقصر من تقييم اتخاذ القرار التفاعلي المطلوب في العمل السريري الحقيقي. هنا، نقدم AgentClinic: معيار متعدد الوسائط لتقييم نماذج LLMs في قدرتها على العمل كوكلاء في بيئات سريرية محاكاة. في معيارنا، يجب على وكيل الطبيب الكشف عن تشخيص المريض من خلال الحوار وجمع البيانات النشط. نقدم معيارين مفتوحين: بيئة متعددة الوسائط تشمل الصور والحوار، AgentClinic-NEJM، وبيئة حوار فقط، AgentClinic-MedQA. نُضمِّن الانحيازات المعرفية والضمنية في وكلاء المرضى والأطباء لمحاكاة التفاعلات الواقعية بين وكلاء متحيزين. نجد أن إدخال الانحياز يؤدي إلى انخفاضات كبيرة في دقة التشخيص لدى وكلاء الأطباء، وكذلك تقليل الالتزام، والثقة، والاستعداد للاستشارة المتابعة لدى وكلاء المرضى. عند تقييم مجموعة من نماذج LLMs الحديثة، نجد أن عدة نماذج تتفوق في معايير مثل MedQA لكنها تؤدي أداءً ضعيفًا في AgentClinic-MedQA. نلاحظ أن نموذج LLM المستخدم في وكيل المريض هو عامل مهم في الأداء في معيار AgentClinic. نُظهر أن وجود عدد محدود من التفاعلات وكذلك تفاعلات كثيرة جدًا يقلل من دقة التشخيص لدى وكلاء الأطباء. الشيفرة والبيانات لهذا العمل متاحة للجمهور على https://AgentClinic.github.io.
Building similarity graph...
Analyzing shared references across papers
Loading...
Samuel Schmidgall
Rojin Ziaei
Carl Harris
Building similarity graph...
Analyzing shared references across papers
Loading...
درس شميدغال وآخرون (الإثنين) هذا السؤال.
www.synapsesocial.com/papers/68e6a4ffb6db643587628778 — DOI: https://doi.org/10.48550/arxiv.2405.07960
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: