Key points are not available for this paper at this time.
हम तीन नए ध्यान तंत्र प्रस्तुत करते हैं जो दक्षता और सीखने की क्षमताओं के संदर्भ में मानक मल्टी-हेड ध्यान से बेहतर प्रदर्शन करते हैं, जिससे ट्रांसफॉर्मर मॉडलों के प्रदर्शन और व्यापक परिनियोजन में सुधार होता है। हमारा पहला योगदान है ऑप्टिमाइज़्ड अटेंशन, जो मानक ध्यान के समान प्रदर्शन करता है, लेकिन इसके 3/4 जितने पैरामीटर होते हैं और प्रति हेड एक मैट्रिक्स गुणा कम होती है। इसके बाद, हम एफिशियंट अटेंशन प्रस्तुत करते हैं, जो मानक ध्यान के बराबर प्रदर्शन करता है, लेकिन इसके आधे से भी कम पैरामीटर होते हैं और प्रति हेड दो मैट्रिक्स गुणा कम होती हैं तथा यह मानक ध्यान से दो गुना तेज़ हो सकता है। अंत में, हम सुपर अटेंशन प्रस्तुत करते हैं, जो विज़न और प्राकृतिक भाषा प्रसंस्करण दोनों कार्यों में मानक ध्यान से काफी बेहतर है जबकि इसके पैरामीटर और मैट्रिक्स गुणा भी कम होती हैं। कठोर गणितीय तुलना प्रदान करने के अलावा, हम प्रस्तुत ध्यान तंत्रों का मूल्यांकन MNIST, CIFAR100, IMDB मूवी रिव्यूज़, और Amazon Reviews डेटासेट पर करते हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Mehran Hosseini
Peyman Hosseini
Building similarity graph...
Analyzing shared references across papers
Loading...
Hosseini et al. (Sun,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e75ef7b6db6435876d5d0f — DOI: https://doi.org/10.48550/arxiv.2403.01643
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: