Dieses Papier präsentiert einen multimodalen Deep-Learning-Ansatz zur präzisen 3D-Rekonstruktion von mechanischen Bauteilen aus Bildern und textuellen Beschreibungen und bietet eine kostengünstige Alternative zu herkömmlichen Methoden. Durch die Kombination von hochauflösenden Bildern aus mehreren Blickwinkeln mit technischen Textdaten erzeugt das Modell genaue 3D-Darstellungen. Ein auf ResNet basierendes CNN extrahiert visuelle Merkmale, während BERT die textuellen Beschreibungen kodiert; ein Tiefenschätzungsmodul verbessert die räumliche Genauigkeit. Die Merkmale werden fusioniert, um eine 3D-Punktwolke und ein Mesh zu erzeugen. Die Ergebnisse zeigen eine gute Leistung bei der Erfassung der Gesamtform der mechanischen Teile; jedoch sind weitere Verbesserungen nötig, um die Präzision der metrischen Parameter zu erhöhen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Issam Dridi
Taher Haddad
Noureddine Ben Yahia
MATEC Web of Conferences
Building similarity graph...
Analyzing shared references across papers
Loading...
Dridi et al. (Wed,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e040f3a99c246f578b3820 — DOI: https://doi.org/10.1051/matecconf/202541404007