What question did this study set out to answer?

El objetivo es mejorar la generación de subtítulos para imágenes de reliquias culturales chinas utilizando abundantes textos de dominio.

January 26, 2026

Mejora de la generación de subtítulos de imágenes para reliquias culturales chinas con modelos de lenguaje por difusión

Puntos clave

El objetivo es mejorar la generación de subtítulos para imágenes de reliquias culturales chinas utilizando abundantes textos de dominio.
Preentrenamiento de un modelo de lenguaje por difusión en un gran corpus de textos del dominio.
Ajuste fino del modelo en datos limitados emparejados de imagen y subtítulo.
Entrenamiento condicionado en características visuales.
Realización de experimentos para comparar el rendimiento frente a otros métodos.
Mejora significativa en el rendimiento de la generación de subtítulos en comparación con métodos base.
Uso efectivo de textos del dominio que llevó a una comprensión mejorada de las reliquias culturales.
Potencial demostrado de los DLMs en tareas complejas visión-lenguaje.

Resumen

La generación precisa y detallada de subtítulos para imágenes es crucial para documentar y difundir el conocimiento sobre las reliquias culturales chinas, sin embargo, esta tarea está gravemente limitada por su naturaleza específica del dominio y la escasez aguda de datos emparejados de imágenes y subtítulos. Aunque los datos visuales-textuales emparejados son limitados, a menudo existen volúmenes sustanciales de textos del dominio sobre estas reliquias. Proponemos un marco novedoso para la generación de subtítulos de imágenes de reliquias culturales chinas que aprovecha eficazmente estos abundantes textos de dominio utilizando modelos de lenguaje por difusión (DLMs). Nuestro enfoque implica preentrenar un DLM en un gran corpus de textos del dominio para inculcar conocimiento lingüístico específico del dominio, seguido de un ajuste fino del DLM preentrenado en los datos limitados emparejados de imagen-subtítulo, condicionado por características visuales. Los experimentos demuestran que esta estrategia mejora significativamente el rendimiento de la generación de subtítulos en comparación con métodos que no explotan los textos del dominio o lo hacen de manera menos efectiva. Este trabajo destaca el poder de los DLMs para aprovechar textos de dominio fácilmente disponibles para superar la escasez de datos en tareas complejas de generación visión-lenguaje, ofreciendo una herramienta valiosa para la documentación del patrimonio cultural y aplicaciones más amplias de procesamiento del lenguaje natural.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Feed social

Authors

Chenggang Mi

Yu Li

Journals

Journal on Computing and Cultural Heritage

Actions

Institutions

Northwestern Polytechnical University

Xi'an International Studies University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mejora de la generación de subtítulos de imágenes para reliquias culturales chinas con modelos de lenguaje por difusión

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Feed social

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider