May 27, 2024Open Access

ClassDiffusion: تعديل التخصيص بشكل أكثر توافقًا مع التوجيه الصريح للفئة

Key Points

Key points are not available for this paper at this time.

Abstract

لقد ثبت نجاح الأعمال الحديثة في تخصيص النص إلى صورة في توليد صور لمفاهيم معينة عن طريق ضبط نماذج الانتشار باستخدام عدد قليل من الأمثلة. ومع ذلك، تميل هذه الطرق إلى الإفراط في التعلّم للمفاهيم، مما يؤدي إلى فشل في إنشاء المفهوم تحت ظروف متعددة (على سبيل المثال، غياب سماعة الرأس عند توليد صورة كلب يرتدي سماعة رأس). من المثير للاهتمام أننا نلاحظ أن النموذج الأساسي قبل التعديل يظهر القدرة على تركيب المفهوم الأساسي مع عناصر أخرى (مثل كلب يرتدي سماعة رأس)، مما يشير إلى أن القدرة التركيبية تختفي فقط بعد ضبط التخصيص. مستوحاة من هذا الملاحظة، نقدم ClassDiffusion، وهي تقنية بسيطة تستفيد من خسارة الحفاظ على الدلالة لتنظيم فضاء المفهوم بشكل صريح عند تعلم المفهوم الجديد. رغم بساطتها، فإن هذه التقنية تساعد على تجنب انحراف الدلالة عند تعديل النموذج على المفاهيم المستهدفة. تظهر تجارب كمية ونوعية موسعة أن استخدام خسارة الحفاظ على الدلالة يحسن بفعالية القدرات التركيبية للنماذج المعدلة. استجابة لعدم فعالية تقييم مقاييس CLIP-T، نقدم مقياس BLIP2-T، وهو مقياس تقييم أكثر عدلاً وفعالية لهذا المجال المحدد. كما نقدم دراسة تجريبية معمقة وتحليلًا نظريًا لفهم أفضل لدور الخسارة المقترحة. وأخيرًا، نوسع استخدام ClassDiffusion لتوليد الفيديوهات المخصصة، مما يبرهن على مرونته.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiannan Huang

Jun Hao Liew

Hanshu Yan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ClassDiffusion: تعديل التخصيص بشكل أكثر توافقًا مع التوجيه الصريح للفئة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider