Key points are not available for this paper at this time.
Eine zentrale Herausforderung bei der Abfrage von Videodaten besteht darin, dass der Benutzer oft den Inhalt des Videos, seine Struktur und die genaue Terminologie für die Abfrage nicht kennt. Während diese Probleme bei explorativen Abfragen über traditionelle strukturierte Daten bestehen, verschärfen sie sich bei Videodaten, bei denen die Informationen aus menschlich annotierten Metadaten oder aus Computervisionsmodellen stammen, die über das Video laufen. Ohne jegliche Orientierung ist der Mensch ratlos, wo er die Abfragesitzung beginnen oder wie er die Abfrage konstruieren soll. Hier sind Benutzeroberflächen mit Autovervollständigung zu einer beliebten und weit verbreiteten Methode der interaktiven, zeichenweisen Abfrageführung geworden. Um den Benutzer durch den Abfragekonstruktionsprozess zu leiten, entwickeln wir Methoden, die Vision-Language-Modelle und Large-Language-Modelle kombinieren, um Abfragevorschläge zu generieren, die für autovervollständigungsbasierte Benutzeroberflächen geeignet sind. Durch quantitative Bewertungen über reale Datensätze zeigen wir, dass unser Ansatz einen bedeutenden Vorteil bei der Konstruktion von Videoabfragen bietet.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hojin Yoo
Arnab Nandi
The Ohio State University
Building similarity graph...
Analyzing shared references across papers
Loading...
Yoo et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e64d66b6db6435875ddbfc — DOI: https://doi.org/10.1145/3665939.3665964
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: