Eine genaue und detaillierte Bildbeschreibung ist entscheidend für die Dokumentation und Verbreitung von Wissen über chinesische Kulturrelikte, doch diese Aufgabe ist aufgrund ihres domänenspezifischen Charakters und der akuten Knappheit an gepaarten Bild-Beschriftungsdaten stark eingeschränkt. Während gepaarte visuelle Textdaten begrenzt sind, existieren oft umfangreiche Mengen an domänenspezifischen Texten über diese Relikte. Wir schlagen einen neuartigen Rahmen für die Bildbeschreibung chinesischer Kulturrelikte vor, der diese reichhaltigen Domänentexte effektiv mittels Diffusions-Sprachmodellen (DLMs) nutzt. Unser Ansatz umfasst das Vortrainieren eines DLM auf dem großen Korpus von Domänentexten, um domänenspezifisches linguistisches Wissen zu vermitteln, gefolgt von einer Feinabstimmung des vortrainierten DLM auf den begrenzten gepaarten Bild-Beschriftungsdaten, konditioniert auf visuelle Merkmale. Experimente zeigen, dass diese Strategie die Leistung bei der Bildbeschreibung im Vergleich zu Methoden, die die Domänentexte nicht oder weniger effektiv nutzen, erheblich verbessert. Diese Arbeit hebt die Leistungsfähigkeit von DLMs hervor, die leicht verfügbaren Domänentexte zu nutzen, um den Datenmangel bei komplexen Vision-Sprache-Generierungsaufgaben zu überwinden, und bietet ein wertvolles Werkzeug für die Dokumentation des Kulturerbes sowie für breitere Anwendungen in der Verarbeitung natürlicher Sprache.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...
Mi et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: