Cómo afecta el Deep Learning a la Seguridad

Recopilación, análisis y aplicación eficientes de datos y el uso inteligente de los mismos se están volviendo cada vez más importantes en la videovigilancia. Por lo tanto, la mejora de la inteligencia de vídeo parece ser una meta inevitable para todo el sector de la seguridad.

Los dispositivos de almacenamiento de datos en todo el sector de seguridad se requieren rutinariamente para manejar una cantidad enorme y muchas capas de datos sin procesar. A medida que proyectos urbanos seguros en diferentes tamaños se vuelven más frecuentes, el número de nodos de vigilancia va alcanzando los cientos de miles. Y debido al uso generalizado de monitoreo de alta definición, la cantidad de datos involucrados en vigilancia de seguridad ha aumentado dramáticamente en un tiempo corto.

Usuarios de seguridad esperan que su inversión en nuevos productos traiga aún más beneficios, más allá del simple rastreo y seguimiento de personas de interés y recolección de pruebas después de eventos de seguridad. Algunos ejemplos de beneficios adicionales incluyen el uso de las últimas tecnologías para reemplazar la gran cantidad de personas necesarias anteriormente para buscar metrajes de vigilancia, detectar datos anómalos y encontrar formas cada vez más eficaces para permitir que la vigilancia pase del rastreo pos-incidente a alertas durante incidentes o incluso alertas previas a incidentes. Para satisfacer estas demandas se requieren nuevas tecnologías. Vigilancia por video inteligente ha estado disponible por muchos años. Sin embargo, los resultados de su aplicación no han sido ideales. El surgimiento del deep learning ha permitido que estas demandas se conviertan en realidad.

LA INSUFICIENCIA DE LOS ALGORITMOS INTELIGENTES TRADICIONALES

La videovigilancia inteligente tradicional tiene requisitos especialmente estrictos para los escenarios de una situación. La exactitud del reconocimiento y análisis inteligente en escenarios comparables sigue siendo inconstante. Esto se debe principalmente al hecho de que los algoritmos tradicionales de análisis de vídeo inteligente todavía tienen muchos defectos.

En un proceso inteligente de reconocimiento y análisis, como el reconocimiento facial humano, se requieren dos pasos clave: En primer lugar, las características se extraen. Y, en segundo lugar, “clasificación de aprendizaje” se realiza.

El grado de precisión en este primer paso determina directamente la precisión del algoritmo. De hecho, la mayor parte del cálculo del sistema y la carga de trabajo de las pruebas se consumen en esta parte. Las características de los algoritmos inteligentes tradicionales están diseñadas por humanos y siempre han sido muy subjetivas. Los rasgos más abstractos – los que los humanos tienen dificultad para comprender o describir – son inevitablemente perdidos. Con los ángulos de desplazamiento y la iluminación, y especialmente cuando el tamaño de la muestra es enorme, muchas características pueden ser demasiado difíciles de detectar. Por lo tanto, mientras que los algoritmos inteligentes tradicionales funcionan bien en entornos muy específicos, cambios sutiles (calidad de imagen, entorno etc.) producen dificultades significativas a la precisión.

El segundo paso – la clasificación de aprendizaje – implica principalmente detección de objetivos y reconocimiento de atributos. A medida que aumenta el número de categorías disponibles para la clasificación, también aumenta el nivel de dificultad.  Por lo tanto, las tecnologías tradicionales de análisis inteligentes son muy precisas en el análisis de vehículos, pero no en el análisis humano y de objetos.  Por ejemplo, en la detección de vehículos se hace una distinción entre un vehículo y un no vehículo, por lo que la clasificación es simple y el nivel de dificultad es bajo. Para reconocer los atributos del vehículo se requiere el reconocimiento de diferentes diseños de vehículos, logotipos etc. Sin embargo, hay relativamente pocos de ellos, haciendo que los resultados de la clasificación sean generalmente precisos. Por otro lado, si el reconocimiento debe realizarse en caras humanas, cada persona tiene una clasificación propia y las categorías correspondientes serán extremadamente numerosas — llevando naturalmente a un nivel muy alto de dificultad.

Los algoritmos inteligentes tradicionales generalmente utilizan modelos de aprendizaje superficial para manejar situaciones con grandes cantidades de datos en clasificaciones complejas. Los resultados del análisis están lejos de ser ideales. Además, estos resultados restringen directamente la amplitud y la profundidad de las aplicaciones inteligentes y el desarrollo ulterior. De ahí se está planteando la necesidad de aumentar la “profundidad” de la inteligencia en los grandes datos para el sector de seguridad.

LAS VENTAJAS DEL DEEP LEARNING Y SUS ALGORITMOS

Los algoritmos inteligentes tradicionales son diseñados por humanos. Si están o no bien diseñados depende en gran medida de la experiencia e incluso de la suerte y este proceso requiere mucho tiempo. Por lo tanto, ¿es incluso posible hacer que máquinas aprendan automáticamente algunas de las características? ¡Sí! Este es en realidad el objetivo de la Inteligencia Artificial (IA).

La inspiración para el deep learning proviene de las redes neuronales de un cerebro humano. Nuestro cerebro puede ser visto como un modelo de deep learning muy complejo. Las redes neuronales del cerebro están formadas por miles de millones de neuronas interconectadas. El deep learning simula esta estructura. Estas redes de múltiples capas pueden recopilar informaciones y realizar las acciones correspondientes. También tienen la capacidad de abstracción de objetos y recreación.

El deep learning es intrínsecamente diferente de otros algoritmos. La forma en que resuelven las insuficiencias de los algoritmos tradicionales se engloba en los siguientes aspectos.

PRIMERAMENTE, DESDE “SUPERFICIAL” A “PROFUNDO”

El modelo algorítmico para el deep learning tiene una estructura mucho más profunda que las dos estructuras de tres capas de algoritmos tradicionales. A veces, el número de capas puede llegar a más de un centenar, lo que le permite procesar grandes cantidades de datos en clasificaciones complejas. El deep learning es muy similar al proceso de aprendizaje humano y tiene un proceso de abstracción de características capa por capa. Cada capa tiene diferentes “ponderaciones” y esta ponderación refleja lo que se aprendió acerca de los “componentes” de las imágenes. Cuanto más alto sea el nivel de capa, más específicos serán los componentes.  Simulando el cerebro humano, una señal original en el deep learning pasa a través de capas de procesamiento. A continuación, se necesita una comprensión parcial (superficial) para una abstracción general (profunda) en la que podemos percibir el objeto.

EN SEGUNDO LUGAR, DESDE “CARACTERÍSTICAS ARTIFICIALES” A “APRENDIZAJE DE CARACTERÍSTICAS”

El deep learning no requiere intervención manual, sino que se basa en una computadora para extraer características por sí mismo. De esta manera es capaz de extraer tantas características de la meta como sea posible, incluyendo características abstractas que son difíciles o imposibles de describir. Cuantas más características haya, más preciso serán el reconocimiento y la clasificación. Algunos de los beneficios más directos que los algoritmos de deep learning pueden aportar incluyen lograr una exactitud de reconocimiento de patrones comparable o incluso mejor que el humano, fuertes capacidades anti-interferencia y la capacidad de clasificar y reconocer miles de características.

FACTORES CLAVE DEL DEEP LEARNING

En total, hay tres razones principales por las que el deep learning sólo se hizo popular en los últimos años y no antes: la escala de datos involucrados, poder computacional y red de arquitectura.

Las mejoras en el rendimiento de los algoritmos basados en datos han acelerado el deep learning en varias aplicaciones inteligentes en un corto período de tiempo. Específicamente, con el aumento en escala de datos, rendimiento algorítmico ha mejorado también. Por consiguiente, la experiencia del usuario ha mejorado y hay más usuarios involucrados, lo que facilita una mayor escala de datos.

Los datos de videovigilancia representan el 60% de los grandes datos y la cantidad aumenta un 20% anual. La velocidad y la escala de este logro se deben a la popularización de la vigilancia por video de alta definición — 1080 p de alta definición es cada vez más común. Y resoluciones de 4K y más altas se están utilizando gradualmente en muchas aplicaciones importantes.

Hikvision ha operado en el sector de seguridad durante muchos años con sus propias capacidades de investigación y desarrollo, empleando grandes cantidades de datos reales de video e imagen como muestras de entrenamiento. Con una gran cantidad de datos de buena calidad y más de cien miembros de equipo para etiquetar las imágenes de vídeo, se han acumulado datos de muestra con millones de categorías. Con esta gran cantidad de datos de entrenamiento de calidad, los modelos de reconocimiento de patrones de objetos y vehículos serán cada vez más precisos para el uso de videovigilancia.

Además, las plataformas de hardware de alto rendimiento permiten una mayor potencia computacional. El modelo de deep learning requiere una gran cantidad de muestras, lo que hace inevitable una gran cantidad de cálculos. En el pasado, los dispositivos de hardware eran incapaces de procesar modelos complejos de deep learning con más de cien capas. En 2011, DeepMind de Google utilizó 1.000 dispositivos con 16.000 CPUs para simular una red neuronal con aproximadamente 1 mil millones de neuronas. Hoy en día, sólo unas pocas GPUs (unidades de procesamiento gráfico) son necesarias para lograr el mismo tipo de potencia computacional con una iteración aún más rápida. El rápido desarrollo de GPUs, superordenadores, computación en la nube y otras plataformas de hardware de alto rendimiento han permitido que el deep learning sea posible.

Por último, la arquitectura de red tiene su propia función en el avance del deep learning. A través de la optimización constante de los algoritmos de deep learning se puede lograr un mejor reconocimiento del objeto objetivo. Para aplicaciones más complejas como reconocimiento facial o en escenarios con iluminación, ángulos, posturas, expresiones, accesorios, resoluciones etc. diferentes, la arquitectura de red afectará la precisión del reconocimiento, es decir, cuanto más hay capas en los algoritmos de deep learning, mejor será el rendimiento.

En 2016, Hikvision alcanzó la primera posición en la categoría de Clasificación de Escenarios en el Desafío de reconocimiento visual ImageNet a gran escala 2016. El equipo del Instituto de Investigación de Hikvision utilizó redes en estilo inicial y redes residuales no tan profundas que funcionan mejor con un tiempo de entrenamiento considerablemente menor, según experimentos de Hikvision para entrenamiento y pruebas. Además, la tecnología de Reconocimiento óptico de caracteres (ROC) de Hikvision, basada en deep learning y liderada por el Instituto de Investigación de la compañía, también ganó el primer premio en la Competencia de lectura avanzada ICDAR 2016. El equipo de Hikvision superó sustancialmente a los competidores nacionales y extranjeros en tres desafíos de reconocimiento de palabras, incluyendo imágenes de origen digital, texto de escena enfocado y texto de escena incidental, demostrando que la tecnología de reconocimiento de palabras por Hikvision ha alcanzado el nivel más alto del mundo.

APLICACIÓN DE PRODUCTOS DE DEEP LEARNING

En los últimos dos años, la tecnología de deep learning ha sobresalido en reconocimiento del habla, visión por computador, traducción de voz y mucho más. Incluso ha superado las capacidades humanas en áreas de verificación facial y clasificación de imágenes. Por lo tanto, ha sido muy apreciada en el campo de videovigilancia para el sector de seguridad.

En la aplicación de video inteligente en detección, rastreo y reconocimiento de blancos, el surgimiento del deep learning ha tenido una profunda influencia. Cuando se aplican estas tres funciones, el deep learning afecta potencialmente a todos los aspectos del sector de videovigilancia de seguridad: detección facial, detección de vehículos, detección de vehículos no motorizados, reconocimiento facial, reconocimiento de marca de vehículo, detección de peatones, detección de características de cuerpos humanos, detección facial anormal, análisis de comportamiento de multitudes, seguimiento de múltiples objetivos etc.

Estos tipos de funciones inteligentes requieren una serie de cámaras de vigilancia delantera, servidores traseros y otros productos compatibles con algoritmos de deep learning. En aplicaciones a pequeña escala, las cámaras frontales pueden operar directamente la extracción estructurada de elementos humanos y vehículos y decenas de miles de imágenes faciales humanas pueden almacenarse dentro de los dispositivos frontales para implementar una comparación facial directa a fin de reducir los costos de comunicación con un servidor. En aplicaciones a gran escala, las cámaras frontales pueden funcionar con servidores traseros. Específicamente, la tarea de vídeo estructurado es manejada por dispositivos frontales, reduciendo la carga de trabajo para dispositivos de fondo. La eficacia de búsqueda y comparación de servidores traseros mejora también.

Este año, Hikvision pronto introducirá una serie de productos con la tecnología de deep learning, como las cámaras de la serie DeepInview que pueden detectar, reconocer y analizar con precisión características y comportamientos humanos, de vehículos y de objetos y pueden ser ampliamente utilizados en escenarios interiores y exteriores. Otro de los productos que vale la pena mencionar es la serie DeepInmind de Hikvision de NVRs (Grabadores de video en red) que incorporan algoritmos avanzados de deep learning e imitan los pensamientos y la memoria humanos. Los productos DeepInmind presentan un modo NVR+GPU innovador, conservando las ventajas de los NVR tradicionales y las funciones adicionales de análisis estructurado de vídeo, que juntos mejoran en gran medida el valor del video.

El deep learning es el siguiente nivel de desarrollo de IA. Está más allá del aprendizaje de máquina donde la clasificación supervisada de características y patrones se establece en algoritmos. El deep learning incorpora principios sin supervisión o “auto-aprendizaje”. Hikvision está desarrollando este concepto en sus propios algoritmos analíticos. La precisión mejorada es el resultado del aprendizaje en múltiples capas y de una amplia colección de datos. La aplicación de este algoritmo en reconocimiento de rostros, reconocimiento de vehículos, reconocimiento de personas y otras plataformas avanzará significativamente el rendimiento del análisis.

Fuente
Tecnología digital de Hikvision
Etiquetas
Mostrar más