La compréhension automatique du contenu vidéo progresse rapidement. Grâce à des réseaux neuronaux plus profonds et de grands ensembles de données, les machines sont de plus en plus capables de comprendre ce qui est concrètement visible dans les images vidéo, qu'il s'agisse d'objets, d'actions, d'événements ou de scènes. En comparaison, les humains conservent une capacité unique à regarder au-delà des entités concrètes et à reconnaître des concepts abstraits tels que la justice, la liberté et la solidarité. La reconnaissance des concepts abstraits constitue un défi majeur en compréhension vidéo, où le raisonnement sur plusieurs niveaux sémantiques basé sur l'information contextuelle est essentiel. Dans cet article, nous soutenons que les récentes avancées des modèles fondamentaux offrent un cadre idéal pour aborder la compréhension des concepts abstraits dans les vidéos. La compréhension automatisée des concepts abstraits de haut niveau est impérative car elle permet aux modèles de mieux s'aligner sur le raisonnement et les valeurs humaines. Dans cette enquête, nous étudions différentes tâches et ensembles de données utilisés pour comprendre les concepts abstraits dans le contenu vidéo. Nous observons que, périodiquement et sur une longue période, les chercheurs ont tenté de résoudre ces tâches en faisant le meilleur usage des outils à leur disposition. Nous défendons que s'appuyer sur des décennies d'expérience communautaire nous aidera à éclairer ce défi important et à éviter de « réinventer la roue » alors que nous commençons à le revisiter à l'ère des modèles fondamentaux multimodaux.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gowreesh Mago
Pascal Mettes
Stevan Rudinac
Building similarity graph...
Analyzing shared references across papers
Loading...
Mago et al. (Thu,) ont étudié cette question.
www.synapsesocial.com/papers/68d6e0fc8b2b6861e4c3f67e — DOI: https://doi.org/10.48550/arxiv.2508.20765
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: