What does this research mean for the field?

An image parsing to text description (I2T) framework utilizing an and-or graph (AoG) visual knowledge representation can effectively decompose visual patterns and generate semantically meaningful, human-readable text reports for applications such as video surveillance and automatic driving. Novelty: ClaimNovelty.METHODOLOGICAL. Consensus alignment: ConsensusAlignment.NEUTRAL.

June 23, 2010

I2T: Análisis de Imagen a Descripción de Texto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En este artículo, presentamos un marco de trabajo de análisis de imagen a descripción de texto (I2T, por sus siglas en inglés) que genera descripciones textuales del contenido de imágenes y videos basándose en la comprensión de imágenes. El marco I2T propuesto sigue tres pasos: 1) las imágenes de entrada (o fotogramas de video) se descomponen en sus patrones visuales constituyentes mediante un motor de análisis de imágenes, en un espíritu similar al análisis sintáctico de oraciones en lenguaje natural; 2) los resultados del análisis de imagen se convierten en una representación semántica en forma de lenguaje de ontología web (OWL), lo que permite una integración fluida con bases de conocimiento generales; y 3) un motor generador de texto convierte los resultados de los pasos previos en informes textuales semánticamente significativos, legibles por humanos y consultables. La pieza central del marco I2T es una representación del conocimiento visual en grafo and-or (AoG), que proporciona una representación gráfica que sirve como conocimiento previo para representar diversos patrones visuales y ofrece hipótesis de arriba hacia abajo durante el análisis de la imagen. El AoG incorpora vocabularios de elementos visuales incluyendo primitivas, partes, objetos, escenas así como una gramática estocástica de imagen que especifica relaciones sintácticas (es decir, composicionales) y relaciones semánticas (por ejemplo, categóricas, espaciales, temporales y funcionales) entre estos elementos visuales. Por lo tanto, el AoG es un modelo unificado tanto de representaciones categóricas como simbólicas del conocimiento visual. El marco I2T propuesto tiene dos objetivos. Primero, usamos un método semiautomático para analizar imágenes de Internet con el fin de construir un AoG para la representación del conocimiento visual. Nuestro objetivo es hacer que el proceso de análisis sea cada vez más automático utilizando el modelo AoG aprendido. Segundo, utilizamos métodos automáticos para analizar imágenes/videos en dominios específicos y generar informes textuales que son útiles para aplicaciones del mundo real. En los estudios de caso al final de este artículo, demostramos dos sistemas automáticos I2T: un sistema de vigilancia de video de escenas marítimas y urbanas y un sistema de comprensión automática en tiempo real de escenas de conducción.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Benjamin Yao

Xiong Yang

Liang Lin

Journals

Proceedings of the IEEE

Actions

Institutions

University of California, San Diego

University of California, Los Angeles

Sun Yat-sen University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

I2T: Análisis de Imagen a Descripción de Texto

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider