What question did this study set out to answer?

豊富なドメインテキストを用いて中国文化遺物の画像キャプション生成を改善することを目的とする。

January 26, 2026

拡散言語モデルを用いた中国文化遺物の画像キャプション生成の改善

Key Points

豊富なドメインテキストを用いて中国文化遺物の画像キャプション生成を改善することを目的とする。
大規模なドメインテキストコーパスにて拡散言語モデルを事前学習した。
限られたペア画像-キャプションデータでモデルを微調整した。
訓練を視覚特徴に条件付けした。
他の手法との性能比較実験を実施した。
ベースライン手法と比較してキャプション性能が大幅に向上した。
ドメインテキストの効果的な活用により文化遺物理解が強化された。
複雑な視覚と言語タスクにおけるDLMの潜在力が実証された。

Abstract

正確かつ詳細な画像キャプション生成は、中国文化遺物に関する知識の記録および普及に不可欠ですが、このタスクはドメイン固有の性質および画像とキャプションのペアデータの著しい不足によって大きく制限されています。ペアの視覚-テキストデータは限られている一方で、これらの遺物に関する豊富なドメインテキストはしばしば存在します。我々は、拡散言語モデル（DLM）を用いてこの豊富なドメインテキストを効果的に活用する中国文化遺物の画像キャプション生成のための新しいフレームワークを提案します。我々のアプローチは、大規模なドメインテキストコーパスでDLMを事前学習しドメイン固有の言語知識を注入し、その後、視覚特徴に条件付けて限られたペア画像-キャプションデータで事前学習済みDLMを微調整することを含みます。実験により、この戦略はドメインテキストを活用しない、あるいは効果的でない方法と比較してキャプション性能を大幅に向上させることが示されました。本研究は、入手可能なドメインテキストを活用して複雑な視覚と言語生成タスクにおけるデータ不足を克服するDLMの力を強調し、文化遺産の記録やより広範な自然言語処理応用に有用なツールを提供します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Chenggang Mi

Yu Li

Journals

Journal on Computing and Cultural Heritage

Actions

Institutions

Northwestern Polytechnical University

Xi'an International Studies University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

拡散言語モデルを用いた中国文化遺物の画像キャプション生成の改善

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider