تُعد كتابة أوصاف دقيقة ومفصلة للصور أمرًا حيويًا لتوثيق ونشر المعرفة حول الآثار الثقافية الصينية، إلا أن هذه المهمة تعاني من قيود شديدة بسبب طبيعتها المرتبطة بالمجال ونقص البيانات المقترنة بين الصور والأوصاف. بالرغم من ندرة بيانات الصور والنصوص المقترنة، توجد كميات كبيرة من النصوص المتخصصة حول هذه الآثار. نقترح إطار عمل مبتكر لوصف صور الآثار الثقافية الصينية يستغل بفعالية هذه النصوص التخصصية باستخدام نماذج اللغة الانتشارية (DLMs). تتضمن منهجيتنا تدريب نموذج DLM مسبقًا على مجموعة كبيرة من النصوص التخصصية لترسيخ المعرفة اللغوية المرتبطة بالمجال، تليها عملية تعديل دقيق للنموذج المدرب على البيانات المحدودة المرتبطة بين الصور والأوصاف، مع الاعتماد على الميزات البصرية. تُظهر التجارب أن هذه الاستراتيجية تعزز أداء كتابة الأوصاف بشكل ملحوظ مقارنة بالطرق التي لا تستخدم النصوص التخصصية أو تستخدمها بشكل أقل فاعلية. يبرز هذا العمل قدرة نماذج اللغة الانتشارية في الاستفادة من النصوص المتاحة بسهولة للتغلب على ندرة البيانات في مهام توليد اللغة المرتبطة بالرؤية المعقدة، مما يوفر أداة قيمة لتوثيق التراث الثقافي وتطبيقات معالجة اللغة الطبيعية الأوسع.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...
درس مي وآخرون (Sat,) هذا السؤال.
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: