January 10, 2022Open Access

التجزئة الدلالية المدفوعة باللغة

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم LSeg، وهو نموذج مبتكر للتجزئة الدلالية للصور المدفوعة باللغة. يستخدم LSeg مشفّر نصي لحساب تمثيلات مضمنة لعلامات وصفية مدخلة (مثل "عشب" أو "مبنى") مع مشفّر صور يعتمد على المحول لحساب تمثيلات مضمنة كثيفة لكل بكسل من الصورة المدخلة. يتم تدريب مشفّر الصور باستخدام هدف تبايني لمحاذاة تمثيلات البكسل مع التمثيل النصي للفئة الدلالية المقابلة. توفر التمثيلات النصية تمثيلاً مرناً للعلامات حيث ترسم العلامات المتشابهة دلالياً إلى مناطق متشابهة في فضاء التمثيل (مثلاً، "قطة" و"مُغطاة بالفرو"). يتيح هذا لـ LSeg التعميم إلى فئات لم تُرَ سابقًا أثناء الاختبار، دون الحاجة لإعادة تدريب أو حتى عينة تدريب إضافية واحدة. نُظهر أن نهجنا يحقق أداءً تنافسياً عالياً في التعلم الصفري مقارنةً بأساليب التجزئة الدلالية ذات التعلم الصفري والقليل، ويُضاهي حتى دقة الخوارزميات التقليدية عند توفير مجموعة ثابتة من العلامات. الشيفرة والعرض متاحان على https://github.com/isl-org/lang-seg.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Boyi Li

Kilian Q. Weinberger

Serge Belongie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

التجزئة الدلالية المدفوعة باللغة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study