July 5, 2024Open Access

ZARRIO @ Ego4D Kurzfristige Objekt-Interaktions-Vorhersage Herausforderung: Nutzung von Affordanzen und aufmerksamkeitsbasierten Modellen für STA

Key Points

Key points are not available for this paper at this time.

Abstract

Kurzfristige Objekt-Interaktions-Vorhersage (STA) besteht darin, aus der Beobachtung von Egozentrischem Video den Ort der nächsten aktiven Objekte, die Nomen- und Verbkategorien der Interaktion sowie die Zeit bis zum Kontakt zu erkennen. Wir schlagen STAformer vor, eine neuartige aufmerksamkeitsbasierte Architektur, die bildgeführtes zeitliches Pooling, duale Bild-Video-Aufmerksamkeit und mehrskalige Merkmalsfusion integriert, um STA-Vorhersagen aus einem Bild-Input-Video-Paar zu unterstützen. Darüber hinaus führen wir zwei neuartige Module ein, um STA-Vorhersagen am menschlichen Verhalten zu verankern, indem Affordanzen modelliert werden. Erstens integrieren wir ein Umwelt-Affordanzmodell, das als persistenter Speicher für Interaktionen dient, die in einer gegebenen physischen Szene stattfinden können. Zweitens sagen wir Interaktions-Hotspots aus der Beobachtung von Hand- und Objekttrajektorien voraus, was die Sicherheit der STA-Vorhersagen in der Nähe des Hotspots erhöht. Im Testset erzielen unsere Ergebnisse eine finalen 33,5 N mAP, 17,25 N+V mAP, 11,77 N+ mAP und 6,75 Gesamt Top-5 mAP-Metrik, wenn auf dem v2 Trainingsdatensatz trainiert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lorenzo Mur-Labadia

Rubén Martínez-Cantín

Josechu Guerrero-Campo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ZARRIO @ Ego4D Kurzfristige Objekt-Interaktions-Vorhersage Herausforderung: Nutzung von Affordanzen und aufmerksamkeitsbasierten Modellen für STA

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider