La génération précise et détaillée de légendes d'images est cruciale pour documenter et diffuser les connaissances sur les reliques culturelles chinoises, mais cette tâche est fortement limitée par sa nature spécifique au domaine et le manque aigu de données appariées image-légende. Bien que les données visuelles-textuelles appariées soient limitées, de grands volumes de textes de domaine sur ces reliques existent souvent. Nous proposons un cadre novateur pour la génération de légendes d'images des reliques culturelles chinoises qui exploite efficacement ces textes de domaine abondants en utilisant des modèles de langage par diffusion (DLMs). Notre approche consiste à pré-entraînement un DLM sur le large corpus de textes de domaine afin d'inculquer des connaissances linguistiques spécifiques au domaine, suivi d'un affinage du DLM pré-entraîné sur les données appariées image-légende limitées, conditionné sur des caractéristiques visuelles. Les expériences montrent que cette stratégie améliore significativement la performance de génération de légendes comparée aux méthodes qui n'exploitent pas les textes de domaine ou les utilisent moins efficacement. Ce travail souligne le potentiel des DLMs à tirer parti des textes de domaine facilement disponibles pour surmonter la rareté des données dans des tâches complexes de génération vision-langage, offrant un outil précieux pour la documentation du patrimoine culturel et des applications plus larges en traitement du langage naturel.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mi et al. (Sat,) ont étudié cette question.
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...