La supervisión guiada por lenguaje, que utiliza un objetivo semántico congelado de un Modelo de Lenguaje Preentrenado (PLM), ha emergido como un paradigma prometedor para el Aprendizaje Continúo visual (CL). Sin embargo, depender de un único objetivo introduce dos limitaciones críticas: 1) ambigüedad semántica, donde un nombre de categoría polisémico resulta en representaciones visuales conflictivas, y 2) diversidad visual intra-clase, donde un solo prototipo no logra capturar la rica variedad de apariencias visuales dentro de una clase. Para ello, proponemos MuproCL, un marco novedoso que reemplaza el objetivo único con múltiples prototipos contextualmente conscientes. Específicamente, empleamos un agente LLM ligero para realizar la desambiguación de categorías y la expansión visual-modal para generar un conjunto robusto de prototipos semánticos. Un mecanismo de agregación LogSumExp permite que el modelo visual se adapte alineándose con el prototipo más relevante para una imagen dada. Experimentos extensivos a través de varios baselines de CL demuestran que MuproCL mejora consistentemente el rendimiento y la robustez, estableciendo un camino más efectivo para el aprendizaje continuo guiado por lenguaje.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiwei Liu
Yulong Li
Yichen Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e040eda99c246f578b33c8 — DOI: https://doi.org/10.48550/arxiv.2509.16011
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: