Key points are not available for this paper at this time.
تُعتبر أنظمة التوصية القائمة على التعلم المعزز العميق (DRL) مناسبة لمشاكل بدء استخدام المستخدم الجديد، حيث يمكنها التقاط تفضيلات المستخدم تدريجياً. ومع ذلك، فإن معظم أنظمة التوصية القائمة على DRL الموجودة غير مثالية، لأنها تستخدم نفس السياسة لتناسب ديناميكيات المستخدمين المختلفين. نقوم بإعادة صياغة التوصية كعملية اتخاذ قرارات ماركوف متعددة المهام، حيث تمثل كل مهمة مجموعة من المستخدمين المتشابهين. ونظراً لأن المستخدمين المتشابهين لديهم ديناميكيات أقرب، فإن السياسة الخاصة بالمهمة تكون أكثر فعالية من سياسة موحدة واحدة لجميع المستخدمين. لجعل التوصيات للمستخدمين الجدد، نستخدم سياسة افتراضية لجمع بعض التفاعلات الأولية لتحديد مهمة المستخدم، وبعدها يتم استخدام سياسة خاصة بالمهمة. نستخدم Q-learning لتحسين إطار عملنا ونأخذ في الاعتبار عدم اليقين في المهام من خلال المعلومات المتبادلة المتعلقة بالمهام. أُجريت تجارب على ثلاث مجموعات بيانات من العالم الحقيقي للتحقق من فعالية إطار العمل المقترح.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mingsheng Fu
Liwei Huang
Ananya Rao
IEEE Transactions on Industrial Informatics
Nanyang Technological University
University of Electronic Science and Technology of China
University of Macau
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Fu وزملاؤه (Mon,) هذا السؤال.
www.synapsesocial.com/papers/69deaae440ea065679559010 — DOI: https://doi.org/10.1109/tii.2022.3209290
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: