June 9, 2024Open Access

ध्यान एक हाइपरनेटवर्क के रूप में

Key Points

Key points are not available for this paper at this time.

Abstract

ट्रांसफॉर्मर कुछ परिस्थितियों में उन नए समस्या उदाहरणों के लिए सामान्यीकरण कर सकते हैं जिनके घटक भागों से प्रशिक्षण के दौरान परिचित हो सकते हैं लेकिन जिनकी संरचनाएं नहीं हो सकतीं। इस संयोजनीय सामान्यीकरण की क्षमता के पीछे कौन-से यंत्रणा हैं? मल्टी-हेड अटेंशन को एक हाइपरनेटवर्क के रूप में पुनः स्वरूपित करके, हम प्रकट करते हैं कि एक निम्न-आयामी लेटेंट कोड कुंजी-प्रश्न विशिष्ट संचालन निर्दिष्ट करता है। हम अनुभवजन्य रूप से पाते हैं कि यह लेटेंट कोड अत्यधिक संरचित होता है, जो नेटवर्क द्वारा किए गए उपकार्य के बारे में जानकारी कैप्चर करता है। हाइपरनेटवर्क के रूप में ध्यान के फ्रेमवर्क का उपयोग करते हुए, हम मल्टी-हेड लीनियर अटेंशन में एक सरल संशोधन प्रस्तावित करते हैं जो विभिन्न सार्थक तर्क कार्यों पर संयोजनीय सामान्यीकरण की क्षमता को मजबूत करता है। विशेष रूप से, हम रैवन प्रोग्रेसिव मैट्रिस मानव बुद्धिमत्ता परीक्षण का एक प्रतीकात्मक संस्करण प्रस्तुत करते हैं, जिस पर हम दिखाते हैं कि मॉडल आकार और डेटा के विस्तार से किस प्रकार संयोजनीय सामान्यीकरण सक्षम होता है और ट्रांसफॉर्मर में एक क्रियात्मक रूप से संरचित लेटेंट कोड उत्पन्न होता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Simon Schug

Seijin Kobayashi

Yassir Akram

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ध्यान एक हाइपरनेटवर्क के रूप में

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider