A legenda de imagens precisa e detalhada é crucial para documentar e disseminar conhecimento sobre relíquias culturais chinesas, mas essa tarefa é severamente limitada pela sua natureza específica do domínio e pela escassez aguda de dados pareados de imagem-legenda. Embora os dados visuais-textuais pareados sejam limitados, existem volumes substanciais de textos do domínio sobre essas relíquias. Propomos uma estrutura inovadora para legenda de imagens de relíquias culturais chinesas que aproveita efetivamente esses textos abundantes do domínio usando modelos de linguagem por difusão (DLMs). Nossa abordagem envolve o pré-treinamento de um DLM em um grande corpus de textos do domínio para incutir conhecimento linguístico específico do domínio, seguido pelo ajuste fino do DLM pré-treinado nos dados pareados limitados de imagem-legenda, condicionado a características visuais. Experimentos demonstram que essa estratégia melhora significativamente o desempenho da legenda em comparação com métodos que não exploram os textos do domínio ou os utilizam de forma menos eficaz. Este trabalho destaca o poder dos DLMs em aproveitar textos de domínio prontamente disponíveis para superar a escassez de dados em tarefas complexas de geração visão-linguagem, oferecendo uma ferramenta valiosa para a documentação do patrimônio cultural e aplicações mais amplas de processamento de linguagem natural.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mi et al. (Sat,) estudaram esta questão.
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...