Key points are not available for this paper at this time.
لقد ثبت نجاح الأعمال الحديثة في تخصيص النص إلى صورة في توليد صور لمفاهيم معينة عن طريق ضبط نماذج الانتشار باستخدام عدد قليل من الأمثلة. ومع ذلك، تميل هذه الطرق إلى الإفراط في التعلّم للمفاهيم، مما يؤدي إلى فشل في إنشاء المفهوم تحت ظروف متعددة (على سبيل المثال، غياب سماعة الرأس عند توليد صورة كلب يرتدي سماعة رأس). من المثير للاهتمام أننا نلاحظ أن النموذج الأساسي قبل التعديل يظهر القدرة على تركيب المفهوم الأساسي مع عناصر أخرى (مثل كلب يرتدي سماعة رأس)، مما يشير إلى أن القدرة التركيبية تختفي فقط بعد ضبط التخصيص. مستوحاة من هذا الملاحظة، نقدم ClassDiffusion، وهي تقنية بسيطة تستفيد من خسارة الحفاظ على الدلالة لتنظيم فضاء المفهوم بشكل صريح عند تعلم المفهوم الجديد. رغم بساطتها، فإن هذه التقنية تساعد على تجنب انحراف الدلالة عند تعديل النموذج على المفاهيم المستهدفة. تظهر تجارب كمية ونوعية موسعة أن استخدام خسارة الحفاظ على الدلالة يحسن بفعالية القدرات التركيبية للنماذج المعدلة. استجابة لعدم فعالية تقييم مقاييس CLIP-T، نقدم مقياس BLIP2-T، وهو مقياس تقييم أكثر عدلاً وفعالية لهذا المجال المحدد. كما نقدم دراسة تجريبية معمقة وتحليلًا نظريًا لفهم أفضل لدور الخسارة المقترحة. وأخيرًا، نوسع استخدام ClassDiffusion لتوليد الفيديوهات المخصصة، مما يبرهن على مرونته.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiannan Huang
Jun Hao Liew
Hanshu Yan
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Huang وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e68593b6db64358760dfd5 — DOI: https://doi.org/10.48550/arxiv.2405.17532
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: