准确且详尽的图像字幕生成对于记录和传播中国文物相关知识至关重要,然而该任务受限于其领域特定性质以及配对图像-字幕数据的严重匮乏。尽管配对的视觉-文本数据有限,但关于这些文物的大量领域文本通常是存在的。我们提出了一种针对中国文物图像字幕生成的新框架,有效利用扩散语言模型(DLMs)来利用丰富的领域文本。我们的方法包括在大量领域文本语料库上预训练DLM,以灌输领域特定的语言知识,随后在有限的配对图像-字幕数据上对预训练的DLM进行微调,训练时以视觉特征为条件。实验表明,相较于不利用领域文本或利用不充分的方法,该策略显著提升了字幕生成性能。这项工作强调了扩散语言模型在利用现成领域文本以克服复杂视觉-语言生成任务数据稀缺问题上的强大能力,提供了文化遗产记录及更广泛自然语言处理应用的宝贵工具。
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...
Mi 等人(Sat,)研究了该问题。
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: