正確かつ詳細な画像キャプション生成は、中国文化遺物に関する知識の記録および普及に不可欠ですが、このタスクはドメイン固有の性質および画像とキャプションのペアデータの著しい不足によって大きく制限されています。ペアの視覚-テキストデータは限られている一方で、これらの遺物に関する豊富なドメインテキストはしばしば存在します。我々は、拡散言語モデル(DLM)を用いてこの豊富なドメインテキストを効果的に活用する中国文化遺物の画像キャプション生成のための新しいフレームワークを提案します。我々のアプローチは、大規模なドメインテキストコーパスでDLMを事前学習しドメイン固有の言語知識を注入し、その後、視覚特徴に条件付けて限られたペア画像-キャプションデータで事前学習済みDLMを微調整することを含みます。実験により、この戦略はドメインテキストを活用しない、あるいは効果的でない方法と比較してキャプション性能を大幅に向上させることが示されました。本研究は、入手可能なドメインテキストを活用して複雑な視覚と言語生成タスクにおけるデータ不足を克服するDLMの力を強調し、文化遺産の記録やより広範な自然言語処理応用に有用なツールを提供します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...
Miら(Sat,)はこの問題を研究した。
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: