Key points are not available for this paper at this time.
أصبحت التمثيلات المُدربة مسبقًا ضرورية للعديد من مهام معالجة اللغة الطبيعية والإدراك. بينما انتقل تعلم التمثيل في مجال معالجة اللغة الطبيعية إلى التدريب على النص الخام بدون تعليقات بشرية، لا تزال التمثيلات البصرية وتمثيلات اللغة البصرية تعتمد بشكل كبير على مجموعات بيانات تدريب مُنظمة مكلفة أو تتطلب خبرة متخصصة. في التطبيقات البصرية، تُتعلم التمثيلات معظمها باستخدام مجموعات بيانات ذات تسميات فئوية صريحة مثل ImageNet أو OpenImages. بالنسبة لتعلم اللغة البصرية، تتضمن مجموعات البيانات الشهيرة مثل Conceptual Captions وMSCOCO وCLIP عملية جمع بيانات (وتنظيفها) غير تافهة. هذه العملية المكلفة تحد من حجم مجموعات البيانات وبالتالي تعيق توسيع حجم النماذج المدربة. في هذه الورقة، نستفيد من مجموعة بيانات ضوضائية تحتوي على أكثر من مليار زوج من الصور والنصوص البديلة، تم الحصول عليها بدون خطوات ترشيح أو معالجة لاحقة مكلفة في مجموعة بيانات Conceptual Captions. تعلم بنية مشفّر مزدوج بسيطة محاذاة التمثيلات البصرية واللغوية للأزواج الصورة والنص باستخدام خسارة تباينية. نظهر أن حجم مجموعتنا يمكن أن يعوّض عن ضوضائها ويؤدي إلى تمثيلات متقدمة حتى مع هذا النموذج التعليمي البسيط. يحقق تمثيلنا البصري أداءً قويًا عند نقله لمهام التصنيف مثل ImageNet وVTAB. تُمكّن التمثيلات البصرية واللغوية المحاذية تصنيف الصور دون تدريب مُسبق أيضًا، وتحقق نتائج متقدمة جديدة في معايير استرجاع الصور والنص في Flickr30K وMSCOCO، حتى مقارنة مع نماذج الانتباه المتقاطعة الأكثر تعقيدًا. كما تتيح التمثيلات البحث عبر الوسائط باستخدام استفسارات نصية معقدة ونص + صورة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chao Jia
Yinfei Yang
Ye Xia
Google (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
درس جايا وآخرون (Thu,) هذا السؤال.
www.synapsesocial.com/papers/69dd3fecac7bdbc6c710128e — DOI: https://doi.org/10.48550/arxiv.2102.05918
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: