Key points are not available for this paper at this time.
ट्रांसफॉर्मर कुछ परिस्थितियों में उन नए समस्या उदाहरणों के लिए सामान्यीकरण कर सकते हैं जिनके घटक भागों से प्रशिक्षण के दौरान परिचित हो सकते हैं लेकिन जिनकी संरचनाएं नहीं हो सकतीं। इस संयोजनीय सामान्यीकरण की क्षमता के पीछे कौन-से यंत्रणा हैं? मल्टी-हेड अटेंशन को एक हाइपरनेटवर्क के रूप में पुनः स्वरूपित करके, हम प्रकट करते हैं कि एक निम्न-आयामी लेटेंट कोड कुंजी-प्रश्न विशिष्ट संचालन निर्दिष्ट करता है। हम अनुभवजन्य रूप से पाते हैं कि यह लेटेंट कोड अत्यधिक संरचित होता है, जो नेटवर्क द्वारा किए गए उपकार्य के बारे में जानकारी कैप्चर करता है। हाइपरनेटवर्क के रूप में ध्यान के फ्रेमवर्क का उपयोग करते हुए, हम मल्टी-हेड लीनियर अटेंशन में एक सरल संशोधन प्रस्तावित करते हैं जो विभिन्न सार्थक तर्क कार्यों पर संयोजनीय सामान्यीकरण की क्षमता को मजबूत करता है। विशेष रूप से, हम रैवन प्रोग्रेसिव मैट्रिस मानव बुद्धिमत्ता परीक्षण का एक प्रतीकात्मक संस्करण प्रस्तुत करते हैं, जिस पर हम दिखाते हैं कि मॉडल आकार और डेटा के विस्तार से किस प्रकार संयोजनीय सामान्यीकरण सक्षम होता है और ट्रांसफॉर्मर में एक क्रियात्मक रूप से संरचित लेटेंट कोड उत्पन्न होता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Simon Schug
Seijin Kobayashi
Yassir Akram
Building similarity graph...
Analyzing shared references across papers
Loading...
Schug et al. (Sun,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e65872b6db6435875e782e — DOI: https://doi.org/10.48550/arxiv.2406.05816
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: