What question did this study set out to answer?

O objetivo é melhorar a legenda de imagens para relíquias culturais chinesas usando textos abundantes do domínio.

January 26, 2026

Melhorando a Legenda de Imagens para Relíquias Culturais Chinesas com Modelos de Linguagem por Difusão

Key Points

O objetivo é melhorar a legenda de imagens para relíquias culturais chinesas usando textos abundantes do domínio.
Pré-treinou um modelo de linguagem por difusão em um grande corpus de textos do domínio.
Ajustou finamente o modelo em dados limitados pareados de imagem-legenda.
Condicionou o treinamento em características visuais.
Realizou experimentos para comparar o desempenho com outros métodos.
Melhoria significativa no desempenho da legenda em comparação com métodos base.
Uso eficaz dos textos do domínio levou a melhor compreensão das relíquias culturais.
Potencial comprovado dos DLMs em tarefas complexas de visão-linguagem.

Abstract

A legenda de imagens precisa e detalhada é crucial para documentar e disseminar conhecimento sobre relíquias culturais chinesas, mas essa tarefa é severamente limitada pela sua natureza específica do domínio e pela escassez aguda de dados pareados de imagem-legenda. Embora os dados visuais-textuais pareados sejam limitados, existem volumes substanciais de textos do domínio sobre essas relíquias. Propomos uma estrutura inovadora para legenda de imagens de relíquias culturais chinesas que aproveita efetivamente esses textos abundantes do domínio usando modelos de linguagem por difusão (DLMs). Nossa abordagem envolve o pré-treinamento de um DLM em um grande corpus de textos do domínio para incutir conhecimento linguístico específico do domínio, seguido pelo ajuste fino do DLM pré-treinado nos dados pareados limitados de imagem-legenda, condicionado a características visuais. Experimentos demonstram que essa estratégia melhora significativamente o desempenho da legenda em comparação com métodos que não exploram os textos do domínio ou os utilizam de forma menos eficaz. Este trabalho destaca o poder dos DLMs em aproveitar textos de domínio prontamente disponíveis para superar a escassez de dados em tarefas complexas de geração visão-linguagem, oferecendo uma ferramenta valiosa para a documentação do patrimônio cultural e aplicações mais amplas de processamento de linguagem natural.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Mi et al. (Sat,) estudaram esta questão.

www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

External knowledge-assisted Transformer for image captioning· 2023 · 14 citations
High-Resolution Image Synthesis with Latent Diffusion Models· 2022 · 13,286 citations
BLEU· 2001 · 21,362 citations
The Art and Architecture Thesaurus (AAT): A Critical Appraisal· 1995 · 48 citations
Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

Social Feed

Authors

Chenggang Mi

Yu Li

Journals

Journal on Computing and Cultural Heritage

Actions

Institutions

Northwestern Polytechnical University

Xi'an International Studies University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Melhorando a Legenda de Imagens para Relíquias Culturais Chinesas com Modelos de Linguagem por Difusão

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion