March 18, 2024Open Access

Daten-effizientes kontrastives Sprach-Bild-Vortraining: Priorisierung der Datenqualität über Quantität

Key Points

Key points are not available for this paper at this time.

Abstract

Das kontrastive Sprach-Bild-Vortraining (CLIP) auf umfangreichen Bild-Untertitel-Datensätzen lernt Repräsentationen, die bemerkenswerte Zero-Shot-Generalisation erreichen können. Solche Modelle benötigen jedoch eine enorme Menge an Vortrainingsdaten. Es wurde gezeigt, dass die Verbesserung der Qualität der Vortrainingsdaten viel effektiver ist, um die Leistung von CLIP zu steigern, als die Erhöhung des Datenvolumens. Dennoch bleibt die Frage offen, wie man kleine Teildatensätze findet, die nachweislich die beste Generalisierung bieten. In dieser Arbeit schlagen wir die erste theoretisch fundierte Methode zur Datenauswahl für CLIP vor. Wir zeigen, dass Teildatensätze, die die Kreuzkovarianz der Bilder und Bildunterschriften der gesamten Daten eng bewahren, nachweislich eine überlegene Generalisierungsleistung erzielen. Unsere umfangreichen Experimente auf ConceptualCaptions3M und ConceptualCaptions12M zeigen, dass die von \ gefundenen Teildatensätze auf ImageNet und seinen verschobenen Versionen eine um das 2,7-fache bzw. 1,4-fache Genauigkeit der nächstbesten Baseline erreichen. Darüber hinaus zeigen wir, dass unsere Teildatensätze im Durchschnitt über 11 nachgelagerte Datensätze eine 1,5-fache Genauigkeit der nächsten besten Baseline erzielen. Der Code ist verfügbar unter: https://github.com/BigML-CS-UCLA/clipcov-data-efficient-clip.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Siddharth Joshi

Arnav Jain

Ali Payani

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Daten-effizientes kontrastives Sprach-Bild-Vortraining: Priorisierung der Datenqualität über Quantität

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider