Key points are not available for this paper at this time.
نقدم LSeg، وهو نموذج مبتكر للتجزئة الدلالية للصور المدفوعة باللغة. يستخدم LSeg مشفّر نصي لحساب تمثيلات مضمنة لعلامات وصفية مدخلة (مثل "عشب" أو "مبنى") مع مشفّر صور يعتمد على المحول لحساب تمثيلات مضمنة كثيفة لكل بكسل من الصورة المدخلة. يتم تدريب مشفّر الصور باستخدام هدف تبايني لمحاذاة تمثيلات البكسل مع التمثيل النصي للفئة الدلالية المقابلة. توفر التمثيلات النصية تمثيلاً مرناً للعلامات حيث ترسم العلامات المتشابهة دلالياً إلى مناطق متشابهة في فضاء التمثيل (مثلاً، "قطة" و"مُغطاة بالفرو"). يتيح هذا لـ LSeg التعميم إلى فئات لم تُرَ سابقًا أثناء الاختبار، دون الحاجة لإعادة تدريب أو حتى عينة تدريب إضافية واحدة. نُظهر أن نهجنا يحقق أداءً تنافسياً عالياً في التعلم الصفري مقارنةً بأساليب التجزئة الدلالية ذات التعلم الصفري والقليل، ويُضاهي حتى دقة الخوارزميات التقليدية عند توفير مجموعة ثابتة من العلامات. الشيفرة والعرض متاحان على https://github.com/isl-org/lang-seg.
Building similarity graph...
Analyzing shared references across papers
Loading...
Boyi Li
Kilian Q. Weinberger
Serge Belongie
Building similarity graph...
Analyzing shared references across papers
Loading...
درس لي وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/69dcafae89c4deb67d35957c — DOI: https://doi.org/10.48550/arxiv.2201.03546