Key points are not available for this paper at this time.
{रिइन्फोर्समेंट लर्निंग (RL) एल्गोरिदम ने प्रजातियों में, व्यवहार और मस्तिष्क दोनों में, इनाम-आधारित अधिगम को समझाने में जबरदस्त सफलता प्राप्त की है। विशेष रूप से, सरल मॉडल-फ्री RL मॉडल, जैसे डेल्टा-रूल या Q-learning, बैंडिट टास्क में औजारात्मक अधिगम को मॉडल करने के लिए नियमित रूप से उपयोग किए जाते हैं, और ये मस्तिष्क संकेतों में विभिन्नता को पकड़ते हैं। हालांकि, मानवों में इनाम-आधारित अधिगम कई प्रक्रियाओं को शामिल करता है, जिनमें उच्च-स्तरीय प्रक्रियाएं जैसे स्मृति और निम्न-स्तरीय प्रक्रियाएं जैसे चयन की पुनरावृत्ति शामिल हैं; इनके योगदान को आसानी से गलती से RL गणनाओं के रूप में माना जा सकता है। यहां, हम यह जांच करते हैं कि RL-समान व्यवहार कितना RL गणनाओं द्वारा समर्थित है, एक ऐसे संदर्भ में जहां अन्य प्रक्रियाओं को अलग किया जा सकता है। सैंकड़ों प्रतिभागियों को कवर करने वाले सात डेटा सेटों के पुनः विश्लेषण और कम्प्यूटेशनल मॉडलिंग से पता चलता है कि इस औजारात्मक संदर्भ में, इनाम-आधारित अधिगम को कार्यशील स्मृति और एक आदत-समान संघीय प्रक्रिया के संयोजन द्वारा सबसे अच्छी तरह से समझाया जाता है, बिना किसी RL-समान मान-आधारित क्रमिक अधिगम के। सिमुलेशन दिखाते हैं कि यह संयोजन फिर भी मान-आधारित RL एजेंट की अनुकूल नीति के लगभग समान है, जो समझाता है कि जब कार्यशील स्मृति को अलग नहीं किया जाता तो RL गणनाओं का गलत अनुमान क्यों लगाया जाता है। हमारे परिणाम मस्तिष्क और व्यवहार में RL को एक सार्थक प्रक्रिया के रूप में व्याख्या करने के लिए महत्वपूर्ण प्रश्न उठाते हैं, और विश्लेषण के स्तरों पर रिइन्फोर्समेंट लर्निंग में प्राप्त निष्कर्षों की व्याख्या पर पुनर्विचार की आवश्यकता बताते हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Anne Collins
Building similarity graph...
Analyzing shared references across papers
Loading...
ऐने कॉलिन्स (बुधवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e61806b6db6435875aaaa1 — DOI: https://doi.org/10.31234/osf.io/he3pm