Video de Vigilancia: El mayor de los Grandes Datos

Guest Editors' Introduction • Tiejun Huang • February 2014

International readers, read this article
in English • in Chinese
Translated by Osvaldo Perez and Tiejun Huang

surveillance cameraLos Grandes Datos, (Big Data), continúan creciendo exponencialmente y los videos de vigilancia se han transformado en la mayor fuente. En relación con este ambiente en esta edición de Computing Now se presentan cinco artículos relacionados con los videos de vigilancia tomados de la Biblioteca Digital de la IEEE Conputer Society que se enfocan en actividades de investigación relacionadas con los videos de vigilancia. También incluye algunas referencias relacionadas en como comprimir y analizar tal cantidad de datos de video que se generan.

El Video de Vigilancia en el Universo Digital

En los años recientes se han instalado una cantidad creciente de cámaras de video en nuestros alrededores, que incluyen. cámara en los ascensores, los Cajeros Bancarios, y en las paredes de los edificios, así como en las calles, para la detección de faltas de conducción, cámaras para el cuidado de niños o ancianos y las cámaras que están incorporadas en los computadoras portátiles y en ambas caras de los teléfonos inteligentes. Todas estas cámaras capturan una gran cantidad de videos y los inyectan en el ciberespacio diariamente. Por ejemplo, ciudades como Pekín o Londres poseen alrededor de un millón de cámaras instaladas. Considerando que estas cámaras capturan en una hora mucho más de lo que la BBC (British Broadcat Corporation) o la CCTV (China Central Television) poseen en sus archivos como Programas de TV. De acuerdo con el reporte reciente de la International Data Corporation "El Universo Digital en 2020," la mitad de los Grandes Datos globales, (lo que son valiosos para el análisis del universo digital), fueron de videos de vigilancia en 2012 y el porcentaje parece incrementarse al 65% para el 2015.

Para comprender las actividades de I+D relacionadas con los videos de vigilancia, he buscado la palabras video y vigilancia en el IEEE Xplore (solo con metadata)y en la IEEE CSDL (como una frase exacta). El resultado de la búsqueda mostró 6832 (en Xplore) y 3111 (en la Biblioteca Digital de CS) ponencias publicadas en las conferencias, journals y revistas del IEEE. La figura 1 ilustra el histograma anual de estas publicaciones. Obviamente el alto incremento de los últimos 10 años indica que la investigación en los videos de vigilancia está muy activa.

Figure 1. Histogram of publications in IEEE Computer Society Digital Library and IEEE Xplore for which metadata contains the keywords video and surveillance.

Figure 1. Histogram of publications in IEEE Computer Society Digital Library and IEEE Xplore for which metadata contains the keywords video and surveillance. Note: "~1989" shows all articles up to 1989. The numbers for 2013 might also increase as some are still waiting to be archived into the database.

Los Artículos Temáticos

Los Grandes Datos de los Videos de Vigilancia presentan muchos desafíos tecnológicos, incluyendo la compresión, el almacenamiento, la transmisión, el análisis y el reconocimiento. Entre estos los dos desafíos más críticos son como transmitir y almacenar eficientemente la gran cantidad de datos y como analizar inteligentemente y comprender la información visual que contienen.

Una tecnología de compresión de video de más alta eficiencia se necesita urgentemente para reducir el costo del almacenaje y transmisión de la gran cantidad de datos de vigilancia. El estado del arte es el estándar HEVC (High Efficiency Video Coding) descripto en el tema de Octubre de 2013 y puede comprimir video al 3% de su tamaño de datos real. En otras palabras HEVC duplica la tasa de compresión de datos de la especificación H.264/MPEG 4 AVC aprobada en 2003. En realidad, la ultima duplica la tase de la generación previa de estándares MPEG 2/H.262 que se aprobaron en 1993. Aun con estos avances de duplicación de tasa de compresión cada 10 años es demasiado lento para mantenerle el paso con el crecimiento de los videos de vigilancia en nuestro mundo físico, que en la actualidad se está duplicando cada dos años en promedio.

Para alcanzar una tasa de compresión más elevada, las características particulares de los videos de vigilancia deben ser incluidas en el diseño del un nuevo estándar de codificación. Al contrario de los videos estándares, por ejemplo, el video de vigilancia se captura en un lugar especifico día tras día o inclusive mes tras mes. Hasta aquí los estándares anteriores fallan al no considerar datos específicos residuales que existen en los videos de vigilancia, (por ejemplo un fondo inmutable u objetos de primer plano inmutables). El nuevo estándar IEEE 1857 titulado Estándar para la Codificación Avanzada de de Audio y Video, contiene un perfil para Vigilancia que puede además remover los elementos residuales del fondo. El perfil duplica la tasa de compresión del AVC/H.264 con aun menor complejidad. En "El Estándar IEEE 1857 Potenciando Sistemas Inteligentes de Video de Vigilancia," Wen Gao, nuestros colegas y yo presentamos una introducción de los puntos remarcables del estándar su modelo de base de trasfondo, tecnología de codificación y funcionalidades de reconocimiento amigable. El nuevo enfoque también es utilizado para mejorar la HEC/H.265 y prácticamente duplicar su desempeño, (Detalles técnicos adicionales se pueden encontrar en "Modelado del Fondo Basado en Predicción Adaptativa para la Codificación de los Videos de Vigilancia", el cual está disponible al subscribirse al IEEE Xplore)

Así como en el universo físico, en el universo digital a la mayor cantidad se la denomina materia digital negra; está allí pero lo que conocemos acerco de ella es muy limitado. De acuerdo con el reporte de IDC que mencione anteriormente el 23% de la información en el universo digital podría ser de utilidad para los Grandes Datos si fuera etiquetado y analizado. Aun la tecnología está muy lejos de donde se la necesita y en la práctica solo el 3% de los datos potencialmente útiles son etiquetados — y aun menos es actualmente analizada. En realidad, la gente, los vehículos y otros objetos móviles apareciendo en millones de cámaras serían una rica fuente para el análisis por máquinas para comprender lo complejo de la sociedad y el mundo. Como editora invitada Doreé Duncan Seligmann discute en el tema de CN de Abril de 2012 que el video es aun más desafiante que otros tipos de datos para el análisis automático y su comprensión. Este mes agregamos tres artículos sobre el tópico que fuera publicado en tal oportunidad.

Los seres humanos son generalmente el mayor objeto de interés en el análisis de los videos de vigilancia. En la mejor ponencia presentada en la Conferencia Internacional 2013 del IEEE en Video Avanzado y Vigilancia basada en Señales (AVSS); "Re-Identificación de Personas basada en Referencia", disponible para los subscriptores del IEEE Xplore. Le An y sus colegas proponen un método basado en referencias para aprender un subespacio en el cual las correlaciones entre los datos de referencia de las diferentes cámaras se maximicen. A partir de allí el sistema puede identificar personas que están presentes en diferentes vistas de cámaras con cambios significativos de iluminación.

El análisis del comportamiento humano es el paso siguiente para una mayor comprensión. El artículo de Shuiwang Ji y sus colegas "Redes Neurales Convolucionales 3D para el Reconocimiento de la Acción Humana" presenta el aprendizaje esencial del reconocimiento de la acción humana. La red neuronal convolucional 3D propuesta modela la extracción de características a partir tanto de las dimensiones espaciales como temporales por medio del desarrollo de convoluciones 3D al realizar la captura de la información de movimiento codificada en múltiples tramas de video adyacentes. Los experimentos conducidos utilizando videos de aeropuertos alcanzan un desempeño superior comparado con los métodos de referencia.

En el artículo "Comprendiendo las Escenas Visuales Monoculares: Comprendiendo las Escenas de Tráfico Multi-objetos" Christian Wojek y sus colegas presentan un novedoso modelo probabilístico de escenas 3D que integra geometría 3D interpretada con el estado del arte de la detección de objetos multiclase, seguimiento de objetos y etiquetamiento de escenas. Este modelo utiliza inferencia para recuperar en forma conjunta el contexto de las escenas 3Dy desarrollar un seguimiento de los multi-objetos 3Dutilizando solo video monocular como entrada. El artículo incluye una evaluación de varias secuencias desafiantes capturadas por cámaras a bordo, lo cual ilustra que el enfoque muestra mejoras sustanciales sobre el estado del arte actual del seguimiento multipersona en 3D y el seguimiento multiclase 3D de automóviles, y camiones con un juego desafiante de datos.

Hacia una Era de Escenas de Video

El tema de este mes también incluye un video de John Roese el CTO de EMC Corp con sus visiones técnicas sobre estos tópicos

Muy semejante a la vigilancia, la cantidad de videos capturados en las aulas, las juicios y otros lugares y casos específicos también se están incrementando rápidamente. Esto es el preludio de una era de "escenas de videos "en la cual la mayoría de los videos serán capturados a partir de escenas especificas. En el futuro cercano, estas cámaras omnipresentes cubrirán todos los espacios que la raza humana es capaz de alcanzar.

En esta nueva era la "escena" se convertirá en el puente para conectar la codificación de video y la investigación de la visión por computadora. El modelado de estas escenas puede facilitar técnicas adicionales de compresión como ha quedado demostrado en el estándar IEEE 1857. Y luego con la asistencia de estos modelos de escenas codificados en el flujo de video la detección de los objetos del fondo, el seguimiento y el reconocimiento se transforman en menos dificultoso. En este sentido el crecimiento masivo de la vigilancia y otros tipos de escenas de video presenta grandes desafíos así como grandes oportunidades para las comunidades de investigación relacionadas con video y visión.

En 2015 los Comités Técnicos en Computación Multimedia (TCMC) y en Computación Semántica (TCSEM) de la IEEE Computer Society, auspiciarán en forma conjunta la primera Conferencia Internacional en Multimedia y Big Data, un foro mundial líder para conducir a los investigadores hacia los campos de investigación altamente activos en investigación de Grandes Datos su desarrollo y sus aplicaciones. Los lectores interesados son bienvenidos a unirse a esta nueva Conferencia que se realizará en Pekín la próxima primavera boreal para mas discusiones en los rápidamente crecientes Grandes datos de multimedia.

Citation

T. Huang, "Surveillance Video: The Biggest Big Data," Computing Now, vol. 7, no. 2, Feb. 2014, IEEE Computer Society [online]; http://www.computer.org/portal/web/computingnow/archive/february2014.

Tiejun HuangTiejun Huang es Profesor en la Escuela de Ingeniería Electrónica y ciencias de la Computación y es Director del Instituto para la Tecnología de los Medios Digitales de la Universidad de Pekín. Posee un Doctorado en Ingeniería Electrónica de la Universidad de Huazhong de Ciencia y Tecnología de China. Sus intereses de investigación incluyen la codificación de video, la comprensión de imágenes, la gestión de derechos digitales y la estandarización relacionada. Huang fue premiado con la Excelencia de Talentos del Nuevo Siglo otorgado por el Ministerio de Educación de China en 2011. Es miembro del Consejo de Recomendaciones de Computing Now sirviendo como representante regional para China y supervisando la traducción al Chino de CN. Se lo puede contactar en tjhuang@pku.edu.cn

Average (0 Votes)