What question did this study set out to answer?

目标是利用丰富的领域文本提升中国文物的图像字幕生成。

January 26, 2026

利用扩散语言模型提升中国文物图像字幕生成

Key Points

目标是利用丰富的领域文本提升中国文物的图像字幕生成。
在大量领域文本语料库上预训练扩散语言模型。
在有限的配对图像-字幕数据上微调模型。
训练过程中以内视觉特征作为条件。
进行了实验以比较与其他方法的性能。
与基线方法相比字幕生成性能显著提升。
有效利用领域文本增强了对文物的理解。
验证了扩散语言模型在复杂视觉-语言任务中的潜力。

Abstract

准确且详尽的图像字幕生成对于记录和传播中国文物相关知识至关重要，然而该任务受限于其领域特定性质以及配对图像-字幕数据的严重匮乏。尽管配对的视觉-文本数据有限，但关于这些文物的大量领域文本通常是存在的。我们提出了一种针对中国文物图像字幕生成的新框架，有效利用扩散语言模型（DLMs）来利用丰富的领域文本。我们的方法包括在大量领域文本语料库上预训练DLM，以灌输领域特定的语言知识，随后在有限的配对图像-字幕数据上对预训练的DLM进行微调，训练时以视觉特征为条件。实验表明，相较于不利用领域文本或利用不充分的方法，该策略显著提升了字幕生成性能。这项工作强调了扩散语言模型在利用现成领域文本以克服复杂视觉-语言生成任务数据稀缺问题上的强大能力，提供了文化遗产记录及更广泛自然语言处理应用的宝贵工具。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Chenggang Mi

Yu Li

Journals

Journal on Computing and Cultural Heritage

Actions

Institutions

Northwestern Polytechnical University

Xi'an International Studies University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

利用扩散语言模型提升中国文物图像字幕生成

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider