Key points are not available for this paper at this time.
Das kontrastive Sprach-Bild-Vortraining (CLIP) auf umfangreichen Bild-Untertitel-Datensätzen lernt Repräsentationen, die bemerkenswerte Zero-Shot-Generalisation erreichen können. Solche Modelle benötigen jedoch eine enorme Menge an Vortrainingsdaten. Es wurde gezeigt, dass die Verbesserung der Qualität der Vortrainingsdaten viel effektiver ist, um die Leistung von CLIP zu steigern, als die Erhöhung des Datenvolumens. Dennoch bleibt die Frage offen, wie man kleine Teildatensätze findet, die nachweislich die beste Generalisierung bieten. In dieser Arbeit schlagen wir die erste theoretisch fundierte Methode zur Datenauswahl für CLIP vor. Wir zeigen, dass Teildatensätze, die die Kreuzkovarianz der Bilder und Bildunterschriften der gesamten Daten eng bewahren, nachweislich eine überlegene Generalisierungsleistung erzielen. Unsere umfangreichen Experimente auf ConceptualCaptions3M und ConceptualCaptions12M zeigen, dass die von \ gefundenen Teildatensätze auf ImageNet und seinen verschobenen Versionen eine um das 2,7-fache bzw. 1,4-fache Genauigkeit der nächstbesten Baseline erreichen. Darüber hinaus zeigen wir, dass unsere Teildatensätze im Durchschnitt über 11 nachgelagerte Datensätze eine 1,5-fache Genauigkeit der nächsten besten Baseline erzielen. Der Code ist verfügbar unter: https://github.com/BigML-CS-UCLA/clipcov-data-efficient-clip.
Building similarity graph...
Analyzing shared references across papers
Loading...
Siddharth Joshi
Arnav Jain
Ali Payani
Building similarity graph...
Analyzing shared references across papers
Loading...
Joshi et al. (Mon,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e7397eb6db6435876b2714 — DOI: https://doi.org/10.48550/arxiv.2403.12267
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: