Key points are not available for this paper at this time.
Kurzfristige Objekt-Interaktions-Vorhersage (STA) besteht darin, aus der Beobachtung von Egozentrischem Video den Ort der nächsten aktiven Objekte, die Nomen- und Verbkategorien der Interaktion sowie die Zeit bis zum Kontakt zu erkennen. Wir schlagen STAformer vor, eine neuartige aufmerksamkeitsbasierte Architektur, die bildgeführtes zeitliches Pooling, duale Bild-Video-Aufmerksamkeit und mehrskalige Merkmalsfusion integriert, um STA-Vorhersagen aus einem Bild-Input-Video-Paar zu unterstützen. Darüber hinaus führen wir zwei neuartige Module ein, um STA-Vorhersagen am menschlichen Verhalten zu verankern, indem Affordanzen modelliert werden. Erstens integrieren wir ein Umwelt-Affordanzmodell, das als persistenter Speicher für Interaktionen dient, die in einer gegebenen physischen Szene stattfinden können. Zweitens sagen wir Interaktions-Hotspots aus der Beobachtung von Hand- und Objekttrajektorien voraus, was die Sicherheit der STA-Vorhersagen in der Nähe des Hotspots erhöht. Im Testset erzielen unsere Ergebnisse eine finalen 33,5 N mAP, 17,25 N+V mAP, 11,77 N+ mAP und 6,75 Gesamt Top-5 mAP-Metrik, wenn auf dem v2 Trainingsdatensatz trainiert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lorenzo Mur-Labadia
Rubén Martínez-Cantín
Josechu Guerrero-Campo
Building similarity graph...
Analyzing shared references across papers
Loading...
Mur-Labadia et al. (Freitag,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e614bab6db6435875a7b7e — DOI: https://doi.org/10.48550/arxiv.2407.04369
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: