Key points are not available for this paper at this time.
تقدم هذه الورقة MultiBooth، وهي تقنية جديدة وفعالة لتخصيص متعدد المفاهيم في توليد الصور من النص. على الرغم من التقدم الكبير في طرق التوليد المخصصة، خاصة مع نجاح نماذج الانتشار diffusion models، تواجه الطرق الحالية غالبًا صعوبات في سيناريوهات متعددة المفاهيم بسبب انخفاض دقة المفهوم وارتفاع تكلفة الاستدلال. يعالج MultiBooth هذه المشاكل بتقسيم عملية توليد متعدد المفاهيم إلى مرحلتين: مرحلة تعلم المفهوم الفردي ومرحلة دمج متعدد المفاهيم. خلال مرحلة تعلم المفهوم الفردي، نستخدم مشفر صور متعدد الوسائط وتقنية ترميز مفهوم فعالة لتعلم تمثيل موجز وتمييزي لكل مفهوم. في مرحلة دمج متعدد المفاهيم، نستخدم صناديق التقنين لتعريف منطقة التوليد لكل مفهوم داخل خريطة الانتباه المتقاطع. تتيح هذه الطريقة إنشاء المفاهيم الفردية ضمن مناطقها المحددة، مما يسهل تكوين صور متعددة المفاهيم. هذه الاستراتيجية لا تحسن فقط دقة المفهوم بل تقلل أيضًا من تكلفة الاستدلال الإضافية. يتفوق MultiBooth على العديد من الطرق الأساسية في التقييمات النوعية والكمية، مما يظهر أدائه المتفوق وكفاءته الحاسوبية. صفحة المشروع: https://multibooth.github.io/
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenyang Zhu
Kai Li
Yue Ma
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Zhu وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e6e2eeb6db64358765ec86 — DOI: https://doi.org/10.48550/arxiv.2404.14239