What question did this study set out to answer?

January 26, 2026

Amélioration de la génération de légendes d'images pour les reliques culturelles chinoises grâce aux modèles de langage par diffusion

Key Points

L'objectif est d'améliorer la génération de légendes d'images pour les reliques culturelles chinoises en utilisant des textes de domaine abondants.
Pré-entraînement d'un modèle de langage par diffusion sur un large corpus de textes de domaine.
Affinage du modèle sur des données limitées appariées image-légende.
Conditionnement de l'entraînement sur des caractéristiques visuelles.
Réalisation d'expériences pour comparer la performance avec d'autres méthodes.
Amélioration significative des performances de génération de légendes par rapport aux méthodes de base.
L'utilisation efficace des textes de domaine a conduit à une meilleure compréhension des reliques culturelles.
Potentiel démontré des DLMs dans les tâches complexes vision-langage.

Abstract

La génération précise et détaillée de légendes d'images est cruciale pour documenter et diffuser les connaissances sur les reliques culturelles chinoises, mais cette tâche est fortement limitée par sa nature spécifique au domaine et le manque aigu de données appariées image-légende. Bien que les données visuelles-textuelles appariées soient limitées, de grands volumes de textes de domaine sur ces reliques existent souvent. Nous proposons un cadre novateur pour la génération de légendes d'images des reliques culturelles chinoises qui exploite efficacement ces textes de domaine abondants en utilisant des modèles de langage par diffusion (DLMs). Notre approche consiste à pré-entraînement un DLM sur le large corpus de textes de domaine afin d'inculquer des connaissances linguistiques spécifiques au domaine, suivi d'un affinage du DLM pré-entraîné sur les données appariées image-légende limitées, conditionné sur des caractéristiques visuelles. Les expériences montrent que cette stratégie améliore significativement la performance de génération de légendes comparée aux méthodes qui n'exploitent pas les textes de domaine ou les utilisent moins efficacement. Ce travail souligne le potentiel des DLMs à tirer parti des textes de domaine facilement disponibles pour surmonter la rareté des données dans des tâches complexes de génération vision-langage, offrant un outil précieux pour la documentation du patrimoine culturel et des applications plus larges en traitement du langage naturel.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Mi et al. (Sat,) ont étudié cette question.

www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

External knowledge-assisted Transformer for image captioning· 2023 · 14 citations
High-Resolution Image Synthesis with Latent Diffusion Models· 2022 · 13,286 citations
BLEU· 2001 · 21,362 citations
The Art and Architecture Thesaurus (AAT): A Critical Appraisal· 1995 · 48 citations
Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

Social Feed

Authors

Chenggang Mi

Yu Li

Journals

Journal on Computing and Cultural Heritage

Actions

Institutions

Northwestern Polytechnical University

Xi'an International Studies University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Amélioration de la génération de légendes d'images pour les reliques culturelles chinoises grâce aux modèles de langage par diffusion

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion