What type of study is this?

September 10, 2025

Descubriendo los límites de los modelos visual-lingüísticos en la representación del conocimiento en ingeniería

Puntos clave

Los modelos VL tienen dificultades para transmitir eficazmente tanto la información funcional como la estructural en el diseño de ingeniería.
El conjunto de datos consta de 1.5 millones de pares texto-imagen extraídos de patentes para evaluar el rendimiento del modelo VL.
El ajuste fino del modelo base CLIP reveló limitaciones en la captación de detalles cruciales para tareas de ingeniería de alta precisión.
La investigación futura debe abordar estos desafíos para mejorar los modelos VL en aplicaciones de diseño de ingeniería.

Resumen

RESUMEN: Los modelos Visual-Lenguaje (VL) ofrecen potencial para avanzar en el Diseño de Ingeniería (ED) integrando texto e imágenes de documentos técnicos. Revisamos las aplicaciones de VL en las fases de ED, destacando tres desafíos clave: (i) comprender cómo la información funcional y estructural se expresa de forma complementaria mediante texto e imágenes, (ii) crear conjuntos de datos multimodales a gran escala para diseño y (iii) mejorar la capacidad de los modelos VL para representar el conocimiento en ED. Se desarrolló un conjunto de datos con 1.5 millones de pares texto-imagen y un conjunto de evaluación para recuperación de información cruzada utilizando patentes. Mediante ajuste fino y pruebas del modelo base CLIP en estos conjuntos, identificamos limitaciones significativas en la capacidad de los modelos VL para captar detalles técnicos de alta precisión necesarios en tareas de ED. Con base en estos hallazgos, proponemos direcciones futuras de investigación para avanzar en los modelos VL para aplicaciones de ED.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Marco Consoloni

Vito Giordano

Federico A. Galatolo

Journals

Proceedings of the Design Society

Actions

Institutions

University of Pisa

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Descubriendo los límites de los modelos visual-lingüísticos en la representación del conocimiento en ingeniería

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider