Key points are not available for this paper at this time.
أظهرت النماذج القائمة على المحولات قدرات تعلم سياقي ملحوظة، مما دفع إلى أبحاث مكثفة حول آلياتها الأساسية. أشارت دراسات حديثة إلى أن المحولات يمكنها تنفيذ خوارزميات التحسين من الرتبة الأولى للتعلم السياقي وحتى خوارزميات من الرتبة الثانية في حالة الانحدار الخطي. في هذا العمل، ندرس ما إذا كان بإمكان المحولات أداء طرق تحسين من رتبة أعلى، تتجاوز حالة الانحدار الخطي. نثبت أن محولات الانتباه الخطي مع طبقات ReLU يمكنها تقريب خوارزميات التحسين من الرتبة الثانية لمهمة الانحدار اللوجستي وتحقق خطأ بمقدار عدد طبقات يزداد لوغاريتميًا بالنسبة للخطأ فقط. كنتاج ثانوي، نبرهن على قدرة حتى المحولات التي تعتمد فقط على الانتباه الخطي في تنفيذ خطوة واحدة من تكرار نيوتن لعكس المصفوفة باستخدام طبقتين فقط. تشير هذه النتائج إلى قدرة بنية المحول على تنفيذ خوارزميات معقدة، تتجاوز النزول التدريجي.
Building similarity graph...
Analyzing shared references across papers
Loading...
Angeliki Giannou
Yang Liu
Tianhao Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
درس جيانو وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e75b28b6db6435876d253a — DOI: https://doi.org/10.48550/arxiv.2403.03183
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: