RESUMEN: Los modelos Visual-Lenguaje (VL) ofrecen potencial para avanzar en el Diseño de Ingeniería (ED) integrando texto e imágenes de documentos técnicos. Revisamos las aplicaciones de VL en las fases de ED, destacando tres desafíos clave: (i) comprender cómo la información funcional y estructural se expresa de forma complementaria mediante texto e imágenes, (ii) crear conjuntos de datos multimodales a gran escala para diseño y (iii) mejorar la capacidad de los modelos VL para representar el conocimiento en ED. Se desarrolló un conjunto de datos con 1.5 millones de pares texto-imagen y un conjunto de evaluación para recuperación de información cruzada utilizando patentes. Mediante ajuste fino y pruebas del modelo base CLIP en estos conjuntos, identificamos limitaciones significativas en la capacidad de los modelos VL para captar detalles técnicos de alta precisión necesarios en tareas de ED. Con base en estos hallazgos, proponemos direcciones futuras de investigación para avanzar en los modelos VL para aplicaciones de ED.
Building similarity graph...
Analyzing shared references across papers
Loading...
Marco Consoloni
Vito Giordano
Federico A. Galatolo
Proceedings of the Design Society
University of Pisa
Building similarity graph...
Analyzing shared references across papers
Loading...
Consoloni et al. (vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68c1d5e554b1d3bfb60f87eb — DOI: https://doi.org/10.1017/pds.2025.10340
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: