Key points are not available for this paper at this time.
Handlungserwartung ist die Aufgabe, zukünftige Aktivitäten aus einer teilweise beobachteten Ereignisfolge vorherzusagen. Diese Aufgabe ist jedoch intrinsischer zukünftiger Unsicherheit und der Schwierigkeit, miteinander verbundene Handlungen zu erfassen, ausgesetzt. Im Unterschied zu früheren Arbeiten, die sich darauf konzentrieren, bessere visuelle und zeitliche Informationen zu extrapolieren, fokussieren wir uns auf das Lernen von Handlungsrepräsentationen, die sich ihrer semantischen Vernetzung bewusst sind, basierend auf prototypischen Handlungsmustern und kontextuellen Ko-Vorkommen. Zu diesem Zweck schlagen wir das neuartige Framework Semantically Guided Representation Learning (S-GEAR) vor. S-GEAR lernt visuelle Handlungsprototypen und nutzt Sprachmodelle, um deren Beziehungen zu strukturieren und somit Semantik zu induzieren. Um Einblicke in die Effektivität von S-GEAR zu gewinnen, testen wir es auf vier Handlungserwartungs-Benchmarks und erzielen im Vergleich zu früheren Arbeiten verbesserte Ergebnisse: +3,5, +2,7 und +3,5 absolute Punkte bei der Top-1-Genauigkeit auf Epic-Kitchen 55, EGTEA Gaze+ und 50 Salads jeweils, sowie +0,8 bei der Top-5-Erinnerung auf Epic-Kitchens 100. Weiterhin beobachten wir, dass S-GEAR die geometrischen Assoziationen zwischen Handlungen effektiv von der Sprache auf visuelle Prototypen überträgt. Schließlich eröffnet S-GEAR neue Forschungsfelder bei Erwartungsaufgaben, indem es die komplexen Auswirkungen der semantischen Vernetzung von Handlungen demonstriert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Anxhelo Diko
Danilo Avola
Bardh Prenkaj
Building similarity graph...
Analyzing shared references across papers
Loading...
Diko et al. (Tue,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e61b7fb6db6435875ae52d — DOI: https://doi.org/10.48550/arxiv.2407.02309
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: