Los puntos clave no están disponibles para este artículo en este momento.
En este artículo, presentamos un marco de trabajo de análisis de imagen a descripción de texto (I2T, por sus siglas en inglés) que genera descripciones textuales del contenido de imágenes y videos basándose en la comprensión de imágenes. El marco I2T propuesto sigue tres pasos: 1) las imágenes de entrada (o fotogramas de video) se descomponen en sus patrones visuales constituyentes mediante un motor de análisis de imágenes, en un espíritu similar al análisis sintáctico de oraciones en lenguaje natural; 2) los resultados del análisis de imagen se convierten en una representación semántica en forma de lenguaje de ontología web (OWL), lo que permite una integración fluida con bases de conocimiento generales; y 3) un motor generador de texto convierte los resultados de los pasos previos en informes textuales semánticamente significativos, legibles por humanos y consultables. La pieza central del marco I2T es una representación del conocimiento visual en grafo and-or (AoG), que proporciona una representación gráfica que sirve como conocimiento previo para representar diversos patrones visuales y ofrece hipótesis de arriba hacia abajo durante el análisis de la imagen. El AoG incorpora vocabularios de elementos visuales incluyendo primitivas, partes, objetos, escenas así como una gramática estocástica de imagen que especifica relaciones sintácticas (es decir, composicionales) y relaciones semánticas (por ejemplo, categóricas, espaciales, temporales y funcionales) entre estos elementos visuales. Por lo tanto, el AoG es un modelo unificado tanto de representaciones categóricas como simbólicas del conocimiento visual. El marco I2T propuesto tiene dos objetivos. Primero, usamos un método semiautomático para analizar imágenes de Internet con el fin de construir un AoG para la representación del conocimiento visual. Nuestro objetivo es hacer que el proceso de análisis sea cada vez más automático utilizando el modelo AoG aprendido. Segundo, utilizamos métodos automáticos para analizar imágenes/videos en dominios específicos y generar informes textuales que son útiles para aplicaciones del mundo real. En los estudios de caso al final de este artículo, demostramos dos sistemas automáticos I2T: un sistema de vigilancia de video de escenas marítimas y urbanas y un sistema de comprensión automática en tiempo real de escenas de conducción.
Building similarity graph...
Analyzing shared references across papers
Loading...
Benjamin Yao
Xiong Yang
Liang Lin
Proceedings of the IEEE
University of California, San Diego
University of California, Los Angeles
Sun Yat-sen University
Building similarity graph...
Analyzing shared references across papers
Loading...
Yao et al. (mié,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a07fdb298f34196d2735c8d — DOI: https://doi.org/10.1109/jproc.2010.2050411
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: