الخلفية: يمكن لوكلاء الذكاء الاصطناعي المبنيين على نماذج اللغة الكبيرة (LLMs) تخطيط المهام، واستخدام الأدوات الخارجية، والتنسيق مع وكلاء آخرين. على عكس نماذج اللغة الكبيرة القياسية، يمكن للوكلاء تنفيذ عمليات متعددة الخطوات، والوصول إلى المعلومات السريرية في الوقت الفعلي، ودمج مصادر بيانات متعددة. كان هناك اهتمام باستخدام هؤلاء الوكلاء للمهام السريرية والإدارية، إلا أن المعرفة محدودة بأدائهم وما إذا كانت أنظمة الوكلاء المتعددة تعمل بشكل أفضل من الوكيل الواحد في مهام الرعاية الصحية. الغرض: تقييم أداء وكلاء الذكاء الاصطناعي في الرعاية الصحية، مقارنة أنظمة وكلاء الذكاء الاصطناعي مع نماذج اللغة الكبيرة القياسية، وتوثيق الأدوات المستخدمة لإتمام المهام. مصادر البيانات: PubMed، Web of Science، وScopus من 1 أكتوبر 2022 حتى 5 أغسطس 2025. اختيار الدراسة: دراسات محكمة تنفذ وكلاء ذكاء اصطناعي لمهام سريرية مع مقارنات أداء كمية. استخراج البيانات: استخرج مراجعان (A.G.، M.O.) البيانات بشكل مستقل حول البنى المعمارية، مؤشرات الأداء، والتطبيقات السريرية. تم حل الخلافات بالمناقشة، واستُشير مراجع ثالث (E.K.) عند عدم التوصل إلى إجماع. تلخيص البيانات: استوفت عشرون دراسة معايير الاشتمال. في جميع الدراسات، تفوقت جميع أنظمة الوكلاء على نماذج اللغة الكبيرة الأساسية من حيث دقة الأداء. تراوحت التحسينات من مكاسب صغيرة إلى زيادات تزيد عن 60 نقطة مئوية، مع تحسن وسطي قدره 53 نقطة مئوية في دراسات استدعاء الأدوات من وكيل واحد. كانت هذه الأنظمة فعالة بشكل خاص للمهام المحددة مثل تحديد جرعات الدواء واسترجاع الأدلة. أظهرت أنظمة الوكلاء المتعددين أداءً مثالياً حتى خمسة وكلاء، وكان تأثيرها ملحوظًا بشكل خاص عند التعامل مع المهام المعقدة جدًا. حدث أعلى تحسن في الأداء عندما توافقت تعقيدات إطار عمل الوكيل مع تعقيد المهمة. القيود: تنوع النتائج منع التحليل الكمي الشامل. اعتمدت عدة دراسات على بيانات اصطناعية، مما يحد من القدرة على التعميم. الاستنتاجات: يحسن وكلاء الذكاء الاصطناعي أداء المهام السريرية لنماذج اللغة الكبيرة الأساسية بشكل مستمر عندما تتناسب البنية المعمارية مع تعقيد المهمة. تشير تحليلاتنا إلى تحول جذري مقارنة بالنماذج الأساسية، حيث يفتح وكلاء الذكاء الاصطناعي مجالات كانت غير متاحة سابقًا. يجب أن تستند الجهود المستقبلية إلى تجارب مستقبلية متعددة المراكز تستخدم بيانات العالم الحقيقي لتحديد السلامة، والتوافق مع المهمة، والفعالية من حيث التكلفة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alon Gorenshtein
Mahmud Omar
Benjamin S. Glicksberg
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Gorenshtein وآخرون (الثلاثاء)، هذا السؤال.
www.synapsesocial.com/papers/68af620aad7bf08b1eae313f — DOI: https://doi.org/10.1101/2025.08.22.25334232
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: