Ces dernières années, les caméras événementielles ont suscité un intérêt considérable en raison de leurs propriétés bio-inspirées, telles qu'une haute résolution temporelle et une large plage dynamique. Toutefois, l'obtention de données annotées à grande échelle pour les tâches de vision basées sur les événements reste un défi coûteux. Dans cet article, nous présentons ControlEvents, un modèle génératif basé sur la diffusion conçu pour synthétiser des données événementielles de haute qualité guidées par divers signaux de contrôle tels que des étiquettes textuelles de classe, des squelettes 2D et des poses corporelles 3D. Notre idée principale est d'exploiter le prior de diffusion provenant de modèles fondamentaux, tels que Stable Diffusion, permettant une génération de données événementielles de haute qualité avec un ajustement minimal et peu de données annotées. Notre méthode simplifie le processus de génération de données et réduit significativement le coût de production de jeux de données annotées événements. Nous démontrons l'efficacité de notre approche en synthétisant des données événementielles pour la reconnaissance visuelle, l'estimation de squelettes 2D et l'estimation de poses corporelles 3D. Nos expériences montrent que les données événementielles annotées synthétisées améliorent la performance des modèles dans toutes ces tâches. De plus, notre approche peut générer des événements basés sur des étiquettes textuelles non vues pendant l'entraînement, illustrant les puissantes capacités de génération textuelle héritées des modèles fondamentaux.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yixuan Hu
Yuxuan Xue
Simon Klenk
Building similarity graph...
Analyzing shared references across papers
Loading...
Hu et al. (Ven,) ont étudié cette question.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac36412 — DOI: https://doi.org/10.48550/arxiv.2509.22864
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: