La generación precisa y detallada de subtítulos para imágenes es crucial para documentar y difundir el conocimiento sobre las reliquias culturales chinas, sin embargo, esta tarea está gravemente limitada por su naturaleza específica del dominio y la escasez aguda de datos emparejados de imágenes y subtítulos. Aunque los datos visuales-textuales emparejados son limitados, a menudo existen volúmenes sustanciales de textos del dominio sobre estas reliquias. Proponemos un marco novedoso para la generación de subtítulos de imágenes de reliquias culturales chinas que aprovecha eficazmente estos abundantes textos de dominio utilizando modelos de lenguaje por difusión (DLMs). Nuestro enfoque implica preentrenar un DLM en un gran corpus de textos del dominio para inculcar conocimiento lingüístico específico del dominio, seguido de un ajuste fino del DLM preentrenado en los datos limitados emparejados de imagen-subtítulo, condicionado por características visuales. Los experimentos demuestran que esta estrategia mejora significativamente el rendimiento de la generación de subtítulos en comparación con métodos que no explotan los textos del dominio o lo hacen de manera menos efectiva. Este trabajo destaca el poder de los DLMs para aprovechar textos de dominio fácilmente disponibles para superar la escasez de datos en tareas complejas de generación visión-lenguaje, ofreciendo una herramienta valiosa para la documentación del patrimonio cultural y aplicaciones más amplias de procesamiento del lenguaje natural.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...
Mi et al. (Sat,) estudiaron esta cuestión.
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: