Escrito por: Jairo Rojas Campo
Categoría: Artículos PRO
Publicado: Jueves, 09 Marzo 2023

Conceptos básicos de IA en cámaras de videovigilancia

La inteligencia artificial (IA) ha revolucionado la industria de la videovigilancia en los últimos años. La aplicación de la IA en cámaras de videovigilancia ha mejorado significativamente la eficacia de los sistemas de seguridad, además de aportar información valiosa para los usuarios finales. En esta nota veremos los conceptos básicos y las ventajas de la IA aplicada en este segmento de la seguridad electrónica.

Revisaremos el concepto de la IA aplicada en las cámaras de videovigilancia cubriendo estos puntos:

Antecedentes
Problemas de las analíticas con base en pixeles
Configuraciones básicas de detección de movimiento con base en píxeles para minimizar falsas alarmas
Diferencia entre el análisis con base en píxeles y con el uso de IA
Conceptos básicos de IA
Beneficios de la IA en videovigilancia
Retos y limitaciones de la IA en las cámaras de videovigilancia
Tendencias

Antecedentes

Como ya lo hemos anotado en algunos de nuestros articulos, hay una tendencia marcada en etiquetar nuevos productos como “inteligentes” y las cámaras de videovigilancia hacen parte de esta tendencia, sin embargo, el hecho de que una cámara contenga análisis de video con base en inteligencia artificial no significa que el equipo en sí sea inteligente.

Aún así, dentro de la industria de la seguridad electrónica los desarrollos tecnológicos son cada vez más prometedores en cuanto al concepto de cámaras 'inteligentes' se refiere, en esta nota veremos qué hace que una cámara sea catalogada como 'inteligente'.

En primer lugar, es importante aclarar que en la actualidad no existen estándares de certificaciones que comprueben que una cámara en el mercado de la seguridad electrónica sea realmente inteligente, al menos por ahora esto tiene como como base la experiencia de implementaciones, mas ensayos y pruebas de producto particulares.

A parte de lo anterior, hay un impulsor clave en la aplicación de técnicas del mundo de la inteligencia artificial en videovigilancia y es la necesidad imperiosa de minimizar falsas alarmas, derivadas del análisis de video con base en comparación de imágenes o también conocido como “con base en pixeles”, aspecto que años atrás era más un punto de dolor para los usuarios finales que una ventaja.

Ahora bien, a partir del momento en que los desarrolladores independientes y fabricantes han empezado a mejorar el análisis de contenido de video con base en píxeles con la ayuda de técnicas puntuales derivadas del campo de la IA, es cuando empezamos a ver una gran cantidad de beneficios de aplicar IA en las cámaras de seguridad, toda vez que los metadatos que se producen no sólo mejoran el punto de dolor de las falsas alarmas sino que también generan mayor valor agregado al usuario para otros fines adicionales al de la seguridad como: mercadeo, inteligencia de negocios, mejoras en procesos de producción, seguridad y salud en el trabajo, etc.

Problemas de las analíticas con base en pixeles

Podemos decir que el análisis de contenido de video con base en cambios en la escena obedecen a movimiento, el surgimiento de las analíticas de video se debe a ello. Inicialmente cuando las escenas en ambientes poco dinámicos se aplicaba el análisis de video por detección de movimiento con base en cambios de pixeles tuvo muy buenos resultados, pero en escenarios con imágenes muy quietas, esto permitió que la cámara detectará correctamente que no había movimiento ni personas, etc. Y el principal beneficio se trasladó a la optimización de grabación y por consiguiente, ahorro en almacenamiento y mayores tiempos de retención.

Los análisis de video con base en píxeles se hacen con cálculos de análisis numérico y algoritmos relativamente fáciles de implementar en términos de capacidad de cómputo. Como el video digital se compone de píxeles que representan pequeñas partes del cuadro o imagen captada por la cámara, si suficientes píxeles cambian en un nivel determinado entre cuadros de imágenes, la cámara “activa” la función de detección de movimiento.

Con el tiempo este tipo de análisis se volvió relativamente económico de implementar, pero la detección de movimiento por video con base en pixeles se afectaba fácilmente por cualquier cambio en la escena, incluso sutil, generando multiples falsas alarmas.

Configuraciones básicas de detección de movimiento con base en píxeles para minimizar falsas alarmas

Para mejorar la detección de movimiento por video y minimizar el cálculo y el costo de realizar análisis, los fabricantes de cámaras agregaron una serie de filtros y opciones de configuración para ayudar a mitigar las falsas alarmas o activaciones, entre las más conocidas están:

Cantidad de cambio en la escena en términos de píxeles
Duración del movimiento
Tamaño del movimiento
Filtros de movimiento específicos

TECNOSeguroPRO AI CCTV 1

Cantidad de cambio en la escena en términos de píxeles

La cantidad de cambio, a veces llamada simplemente sensibilidad, es la cantidad de píxeles que deben ser diferentes en una secuencia de fotogramas para que se considere que ha ocurrido un cambio en la escena, generalmente esto se logra midiendo las diferencias de color y contraste. Este dato aunque está relacionado con el porcentaje de píxeles que cambian no es lo mismo.

Duración del movimiento

El seguimiento de la duración del movimiento permite a la detección de video por movimiento con base en píxeles, eliminar grandes grupos de píxeles que solo cambian momentáneamente, a menudo causados por ruido digital o los efectos de sobreexposición por iluminadores IR. Esto normalmente se define simplemente en segundos.

Tamaño del movimiento

El tamaño del movimiento se refiere a la cantidad de píxeles que deben cambiar antes de que se active la detección de movimiento, a veces denominado umbral, en algunos modelos de cámaras se dá como un porcentaje de la zona de movimiento y en otros como una cantidad específica de píxeles. Esta métrica es la más importante usada en detección de movimiento con base en píxeles.

En otros casos, las opciones son más simples y solo se proporciona una configuración de tamaño mínimo y máximo para eliminar tanto cambios pequeños como cambios grandes de escena que pueden ser causados por el movimiento en sí de las cámaras o el encendido/apagado de las luces.

Filtros de movimiento

Aunque es poco común, algunos fabricantes han introducido filtros que se enfocan en tipos específicos de movimiento, como el filtro de objetos oscilantes que se encuentra. Este filtro está diseñado para ignorar objetos que se balancean hacia adelante y hacia atrás dentro de un rango específico, para evitar falsas alarmas por movimiento de ramas de árboles, banderas u otros objetos con movimiento repetitivo.

En otros casos, se puede permitir a los usuarios configurar direcciones específicas para activar la alarma por detección de movimiento según la dirección del mismo en lugar de todas las direcciones. Por ejemplo, activación de movimiento solo cuando algo se mueve hacia arriba o abajo, izquierda o derecha.

Diferencia entre el análisis con base en píxeles y con el uso de IA

Como lo mencionamos anteriormente, la detección de movimiento con base en píxeles realiza aproximaciones como resultado de los análisis numéricos llegando a tener aproximaciones a lo que puede ser “real”, sin embargo la brecha entre las falsas alarmas y alarmas reales con esta técnica es muy grande y en las aplicaciones de múltiples cámaras el beneficio es mucho menor que la incidencia de fallos.

TECNOSeguroPRO AI CCTV 3

La ventaja más importante con la incorporación de técnicas de IA en las cámaras de videovigilancia para el análisis de video, es que las cámaras realmente pueden hacer un proceso de comparación de objetos por sí mismas con base en un algoritmo que corre en la unidad de procesamiento de la cámara, dicho algoritmo ya tiene un proceso de entrenamiento y hasta cierto punto tiene la capacidad de decidir qué objeto es qué cosa.

Conceptos básicos de IA

Para comprender cómo técnicas de IA aplicada sobre cámaras de videovigilancia ayudan a minimizar las falsas alarmas y generar un alto grado de asertividad, es importante conocer algunos conceptos básicos del mundo de la IA.

Redes Neuronales

Las redes neuronales son una rama de la inteligencia artificial que se basa en el diseño y la simulación de sistemas computacionales que imitan el funcionamiento del cerebro humano.

En términos simples, una red neuronal es un modelo matemático que se compone de múltiples unidades interconectadas llamadas neuronas artificiales o nodos, que trabajan juntas para procesar y analizar información.

Cada neurona artificial está conectada a otras neuronas a través de conexiones sinápticas artificiales y estas conexiones tienen un peso asociado que indica la fuerza de la relación entre dos neuronas.

Cada neurona artificial tiene una entrada que recibe información de otras neuronas a través de sus conexiones sinápticas, y una salida que envía información a otras neuronas a través de sus propias conexiones.

En este proceso, las redes neuronales aprenden de manera autónoma a través de un proceso de entrenamiento, en el que se les proporciona un conjunto de datos de entrada y se les enseña a reconocer patrones y relaciones en esos datos.

Aprendizaje profundo

Los algoritmos de aprendizaje profundo es una de las técnicas usadas dentro de la inteligencia artificial que se basa en redes neuronales artificiales profundas para aprender y reconocer patrones complejos en datos.

En términos simples, estos algoritmos funcionan a través de un proceso de aprendizaje en el que la red neuronal va ajustando sus parámetros de manera automática a medida que va procesando un conjunto de datos de entrada, de tal manera que pueda predecir con precisión un resultado de salida.

La siguiente imagen ilustra el proceso de izquierda a derecha, se alimenta el algoritmo con imágenes y videos durante el proceso de entrenamiento.

TECNOSeguroPRO AI CCTV 4

En este proceso, la red neuronal se compone de varias capas, cada una de las cuales procesa y transforma la información de entrada de manera progresiva y compleja. A medida que la información pasa a través de las diferentes capas, la red neuronal va aprendiendo a identificar patrones y características relevantes en los datos, para determinar si estas corresponden a un humano o no y su porcentaje de asertividad.

En este proceso de aprendizaje, los algoritmos de aprendizaje profundo utilizan técnicas de retropropagación para ajustar los pesos y sesgos de las neuronas de cada capa en función de la precisión de la predicción del resultado de salida. Esto permite que la red neuronal pueda reconocer patrones más complejos y precisos a medida que se va ajustando y mejorando su capacidad de predicción.

Una vez que la red neuronal ha sido entrenada con un conjunto de datos de entrada, puede utilizarse para realizar predicciones sobre nuevos datos. En el contexto de las cámaras de videovigilancia, los algoritmos de aprendizaje profundo se utilizan para identificar patrones y características en las imágenes capturadas por las cámaras, como rostros, objetos y movimientos, permitiendo una detección y análisis más precisos y eficaces.

Aprendizaje automático

El Machine Learning, o aprendizaje automático, es una sub-área de la inteligencia artificial que se basa en el desarrollo de algoritmos y modelos matemáticos que permiten a las máquinas aprender de manera autónoma a partir de los datos de entrada, sin ser programadas explícitamente para realizar una tarea en particular.

Existen diferentes tipos de algoritmos de Machine Learning, como el aprendizaje supervisado, el aprendizaje no supervisado, y el aprendizaje por refuerzo, entre otros. Cada uno de estos tipos de algoritmos se utiliza para resolver diferentes tipos de problemas y tareas de aprendizaje automático.

El aprendizaje supervisado implica la utilización de un conjunto de datos etiquetados, es decir, un conjunto de datos de entrada junto con una etiqueta que indica la respuesta correcta para ese conjunto de datos. Durante el entrenamiento, el algoritmo aprende a asociar cada conjunto de datos de entrada con su correspondiente etiqueta, de tal manera que pueda predecir la etiqueta correcta para nuevos datos de entrada.

El aprendizaje no supervisado, por otro lado, no utiliza datos etiquetados, y se utiliza para descubrir patrones y relaciones en los datos que no son evidentes a simple vista.

El aprendizaje por refuerzo implica la utilización de un sistema de recompensas y castigos para entrenar a la máquina a tomar decisiones y realizar acciones en función del objetivo deseado.

Beneficios de la IA en videovigilancia

TECNOSeguroPRO AI CCTV 5 Fuente: psmrvrc.co.uk

La IA permite a las cámaras de videovigilancia analizar las imágenes y extraer información útil de ellas. Los algoritmos de aprendizaje profundo y automático permiten que las cámaras puedan reconocer patrones y a distinguir entre objetos y personas, lo que les permite detectar y alertar sobre actividades sospechosas.

Uno de los usos más comunes de la IA en cámaras de videovigilancia es la detección de movimiento minimizando falsas alarmas. Las cámaras pueden ser configuradas para detectar y alertar sobre cualquier movimiento inusual en una zona vigilada. Además, la IA también puede distinguir entre diferentes tipos de movimientos, como el movimiento de una persona versus el movimiento de un objeto.

La IA también puede utilizarse para detectar comportamientos sospechosos. Por ejemplo, las cámaras pueden ser configuradas para alertar cuando una persona está merodeando en un área durante un período prolongado de tiempo o cuando un objeto sospechoso es dejado en un lugar público.

Otro uso de la IA en cámaras de videovigilancia es la detección de rostros. Tanto en videovigilancia como en control de acceso. La tecnología de reconocimiento facial permite a las cámaras identificar a personas específicas y alertar sobre la presencia de individuos no autorizados. Esta tecnología es especialmente útil en lugares donde se requiere un alto nivel de seguridad, como aeropuertos y edificios gubernamentales.

La IA también puede ser utilizada para la detección y clasificación de vehículos como camiones, automóviles, SUV, autobuses, motos, bicicletas, etc. Las cámaras de videovigilancia pueden ser configuradas para detectar y seguir vehículos en movimiento, lo que puede ser útil para la prevención de delitos relacionados con automóviles, como el robo de vehículos, seguimiento de vehículos de interés particular como en el transporte público y en la industria marítima.

La IA también puede ser utilizada para la gestión de multitudes y la monitorización de la seguridad en eventos públicos. Las cámaras pueden ser configuradas para detectar áreas de alta densidad de personas y alertar sobre posibles riesgos de seguridad como la acumulación de multitudes o la presencia de objetos peligrosos.

La detección avanzada de objetos permite el uso de reglas de detección más específicas, y es muy útil en búsqueda forense, por ejemplo, se pueden generar alertas cuando un automóvil está estacionado en el carril bus. Las alertas son lo que permite a los operadores encontrar objetos específicos más rápidamente que realizar búsquedas demoradas a través de numerosas detecciones genéricas de "vehículos". .

Retos y limitaciones de la IA en las cámaras de videovigilancia

TECNOSeguroPRO AI CCTV 6 Fuente: ifsecglobal.com

Uno de los principales retos a los que el avance tecnológico se enfrenta es que los sistemas de videovigilancia con IA y en general sean utilizados de manera ética y responsable, y que se implementen medidas de seguridad adecuadas para proteger la privacidad de las personas. Desde el punto de vista técnico hay otros retos o limitaciones que son importantes tener en cuenta.

Algunas especificaciones de IA son inexactas

En muchas circunstancias en la detección de movimiento relacionado con personas para casos más específicos como la diferenciación entre una persona desplazándose de rodillas o agachada y no confundirlo con un animal puede ser algo en donde las analíticas si pueden fallar dado que la tecnología no es infalible y el criterio del operador seguirá siendo relevante.

También hay aspectos como las clasificaciones de tipo demográfico como el género, la edad, el estilo de ropa, etc., que actualmente estan en constante desarrollo pero aún muchos fabricantes no se comprometen con la precisión.

El aprendizaje profundo no está en las cámaras

Una idea errónea común es pensar que las cámaras de aprendizaje profundo/IA continúan aprendiendo después de la instalación. Esto es posible solo en algunos casos de cámaras con autoaprendizaje de fabricantes específicos, que intentan aprender cada vez mas de la escena en la que se instalan. Sin embargo, la mayoría de las cámaras usan un modelo pre-entrenado que no cambia su análisis con el tiempo en función de la escena.

Para mejorar el modelo de aprendizaje profundo, normalmente se requiere una actualización de firmware. Por lo tanto, es posible que la cámara “inteligente” adquirida hoy cometa errores, pero con una actualización de firmware podría mejorar el rendimiento a futuro.

Sin embargo, las limitaciones de hardware de las cámaras imponen restricciones de procesamiento que pueden ser significativas sobre lo que se puede hacer con el firmware y el software de gestión.

Limitaciones de hardware en las cámaras

TECNOSeguroPRO AI CCTV 7 Fuente: psmrvrc.co.uk

La mayor limitación de tener “AI” dentro de las cámaras es el costo del hardware para ejecutarlo con los procesadores internos de la cámara. Normalmente, las GPU utilizadas en las cámaras con IA son elementos costosos.

Debido a esto, muchos modelos siguen usando métodos de detección de movimiento por video con base en pixeles, para ciertos casos este análisis puede ser suficiente, pero para aplicaciones de alto perfil se puede usar una combinación de cámaras de buen rendimiento así no incorporen IA y cámaras con IA en los puntos más críticos de seguridad así el proyecto puede se puede viabilizar cuando hay restricciones de presupuesto

Tendencias

TECNOSeguroPRO AI CCTV 8 Fuente: senstar.com

En los últimos años los costos de cámaras con especificación de IA han comenzado a disminuir y el rendimiento ha aumentado significativamente, lo que ha llevado a una gran cantidad de modelos de bajo costo que afirman ser "IA”

Impulsados por mayores capacidades de hardware. En 2023 y en los próximos años esperamos ver que se anuncien muchas más cámaras inteligentes por parte de los fabricantes.

Si bien muchas cámaras hoy en día tienen un rendimiento deficiente a un nivel detección de movimiento por video con base en píxeles, con los nuevos desarrollos, esperamos un aumento significativo en el rendimiento.

A medida que más cámaras tengan un verdadero rendimiento de aprendizaje inteligente, podrán aparecer estándares que se volverán normales como lo ha sido la adopción de megapíxel, H.264 , H.265, otros códecs inteligentes, etc.

Es probable que la precisión y la inteligencia de las cámaras varíen durante años. Para mediados de la década de 2020, esperaríamos que la detección de personas y vehículos de alta precisión se convirtiera en un producto básico es decir, que todas las cámaras lo ofrezcan, pero elementos más complejos como el reconocimiento facial, análisis demográfico, la categorización más precisa de vehículos y la clasificación de comportamiento podrían tardar más en convertirse en sistemas de alta exactitud.

Jairo Rojas Campo

Ing. Electrónico de la Pontificia Universidad Javeriana, especialista en Gerencia de Proyectos, con experiencia como líder de gestión de proyectos en varias empresas reconocidas del gremio de seguridad en el país desde el 2001. Cuenta con múltiples certificaciones en seguridad electrónica en las líneas de CCTV, sistemas de alarmas de intrusión, detección de incendio, controles de acceso, plataformas de integración entre otras.

Actualmente realiza actividades orientadas a la transferencia de su conocimiento y experiencia a equipos de trabajo del sector, realiza diseño y especificación de proyectos. Apasionado por el ciclismo de ruta y ciclo montañismo.