March 3, 2024Open Access

आपको बेहतर ध्यान देने की जरूरत है

Key Points

Key points are not available for this paper at this time.

Abstract

हम तीन नए ध्यान तंत्र प्रस्तुत करते हैं जो दक्षता और सीखने की क्षमताओं के संदर्भ में मानक मल्टी-हेड ध्यान से बेहतर प्रदर्शन करते हैं, जिससे ट्रांसफॉर्मर मॉडलों के प्रदर्शन और व्यापक परिनियोजन में सुधार होता है। हमारा पहला योगदान है ऑप्टिमाइज़्ड अटेंशन, जो मानक ध्यान के समान प्रदर्शन करता है, लेकिन इसके 3/4 जितने पैरामीटर होते हैं और प्रति हेड एक मैट्रिक्स गुणा कम होती है। इसके बाद, हम एफिशियंट अटेंशन प्रस्तुत करते हैं, जो मानक ध्यान के बराबर प्रदर्शन करता है, लेकिन इसके आधे से भी कम पैरामीटर होते हैं और प्रति हेड दो मैट्रिक्स गुणा कम होती हैं तथा यह मानक ध्यान से दो गुना तेज़ हो सकता है। अंत में, हम सुपर अटेंशन प्रस्तुत करते हैं, जो विज़न और प्राकृतिक भाषा प्रसंस्करण दोनों कार्यों में मानक ध्यान से काफी बेहतर है जबकि इसके पैरामीटर और मैट्रिक्स गुणा भी कम होती हैं। कठोर गणितीय तुलना प्रदान करने के अलावा, हम प्रस्तुत ध्यान तंत्रों का मूल्यांकन MNIST, CIFAR100, IMDB मूवी रिव्यूज़, और Amazon Reviews डेटासेट पर करते हैं।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mehran Hosseini

Peyman Hosseini

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

आपको बेहतर ध्यान देने की जरूरत है

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider