March 5, 2024Open Access

إلى أي مدى يمكن للمحولات محاكاة طريقة نيوتن ضمن السياق؟

Key Points

Key points are not available for this paper at this time.

Abstract

أظهرت النماذج القائمة على المحولات قدرات تعلم سياقي ملحوظة، مما دفع إلى أبحاث مكثفة حول آلياتها الأساسية. أشارت دراسات حديثة إلى أن المحولات يمكنها تنفيذ خوارزميات التحسين من الرتبة الأولى للتعلم السياقي وحتى خوارزميات من الرتبة الثانية في حالة الانحدار الخطي. في هذا العمل، ندرس ما إذا كان بإمكان المحولات أداء طرق تحسين من رتبة أعلى، تتجاوز حالة الانحدار الخطي. نثبت أن محولات الانتباه الخطي مع طبقات ReLU يمكنها تقريب خوارزميات التحسين من الرتبة الثانية لمهمة الانحدار اللوجستي وتحقق خطأ بمقدار عدد طبقات يزداد لوغاريتميًا بالنسبة للخطأ فقط. كنتاج ثانوي، نبرهن على قدرة حتى المحولات التي تعتمد فقط على الانتباه الخطي في تنفيذ خطوة واحدة من تكرار نيوتن لعكس المصفوفة باستخدام طبقتين فقط. تشير هذه النتائج إلى قدرة بنية المحول على تنفيذ خوارزميات معقدة، تتجاوز النزول التدريجي.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Angeliki Giannou

Yang Liu

Tianhao Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

إلى أي مدى يمكن للمحولات محاكاة طريقة نيوتن ضمن السياق؟

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider