What question did this study set out to answer?

Das Ziel ist es, die Bildbeschreibung für chinesische Kulturrelikte unter Verwendung reichlicher Domänentexte zu verbessern.

January 26, 2026

Verbesserung der Bildbeschreibung für chinesische Kulturrelikte mit Diffusions-Sprachmodellen

Key Points

Das Ziel ist es, die Bildbeschreibung für chinesische Kulturrelikte unter Verwendung reichlicher Domänentexte zu verbessern.
Ein Diffusions-Sprachmodell wurde auf einem großen Korpus von Domänentexten vortrainiert.
Das Modell wurde auf begrenzten gepaarten Bild-Beschriftungsdaten feinabgestimmt.
Das Training wurde auf visuelle Merkmale konditioniert.
Es wurden Experimente durchgeführt, um die Leistung im Vergleich zu anderen Methoden zu vergleichen.
Signifikante Verbesserung der Leistung bei der Bildbeschreibung im Vergleich zu Basismethoden.
Die effektive Nutzung von Domänentexten führte zu einem besseren Verständnis der Kulturrelikte.
Das Potenzial von DLMs bei komplexen Vision-Sprache-Aufgaben wurde nachgewiesen.

Abstract

Eine genaue und detaillierte Bildbeschreibung ist entscheidend für die Dokumentation und Verbreitung von Wissen über chinesische Kulturrelikte, doch diese Aufgabe ist aufgrund ihres domänenspezifischen Charakters und der akuten Knappheit an gepaarten Bild-Beschriftungsdaten stark eingeschränkt. Während gepaarte visuelle Textdaten begrenzt sind, existieren oft umfangreiche Mengen an domänenspezifischen Texten über diese Relikte. Wir schlagen einen neuartigen Rahmen für die Bildbeschreibung chinesischer Kulturrelikte vor, der diese reichhaltigen Domänentexte effektiv mittels Diffusions-Sprachmodellen (DLMs) nutzt. Unser Ansatz umfasst das Vortrainieren eines DLM auf dem großen Korpus von Domänentexten, um domänenspezifisches linguistisches Wissen zu vermitteln, gefolgt von einer Feinabstimmung des vortrainierten DLM auf den begrenzten gepaarten Bild-Beschriftungsdaten, konditioniert auf visuelle Merkmale. Experimente zeigen, dass diese Strategie die Leistung bei der Bildbeschreibung im Vergleich zu Methoden, die die Domänentexte nicht oder weniger effektiv nutzen, erheblich verbessert. Diese Arbeit hebt die Leistungsfähigkeit von DLMs hervor, die leicht verfügbaren Domänentexte zu nutzen, um den Datenmangel bei komplexen Vision-Sprache-Generierungsaufgaben zu überwinden, und bietet ein wertvolles Werkzeug für die Dokumentation des Kulturerbes sowie für breitere Anwendungen in der Verarbeitung natürlicher Sprache.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Chenggang Mi

Yu Li

Journals

Journal on Computing and Cultural Heritage

Actions

Institutions

Northwestern Polytechnical University

Xi'an International Studies University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Verbesserung der Bildbeschreibung für chinesische Kulturrelikte mit Diffusions-Sprachmodellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider