- Escrito por: Jairo Rojas Campo
- Categoría: Artículos PRO
- Publicado:
La IA generativa y su impacto en la industria de la videovigilancia
La convergencia entre la Inteligencia Artificial Generativa (IAG) y los sistemas de videovigilancia pueden estar relacionados entre sí. En esta nota revisamos cómo la capacidad de los modelos generativos, especialmente los Generative Adversarial Networks (GAN), pueden impactar en entornos de vigilancia. Desde la simulación de escenarios complejos hasta desafíos éticos y contramedidas de seguridad, la IAG podrá tener un impacto de mediano y largo plazo en este segmento de la seguridad electrónica.
En esta nota revisamos más de cerca la IAG y de qué forma puede impactar en la industria de la videovigilancia.
- ¿Qué es la Inteligencia Artificial Generativa?
- Funcionamiento de los modelos de difusión.
- ¿Cómo realmente la IAG puede impactar los sistemas de videovigilancia?
- Transformadores y modelos de inferencia visual.
- El riesgo de las Imágenes generadas artificialmente.
¿Qué es la Inteligencia Artificial Generativa?
La Inteligencia Artificial Generativa (IAG) es una rama de muy amplia aplicación de la IA que se centra en la creación de datos y contenido nuevo y original. A diferencia de los modelos tradicionales de IA que están diseñados para tareas específicas, los modelos generativos tienen la capacidad de generar información nueva, que a menudo, es indistinguible de los datos reales.
La IAG se basa en modelos generativos que son capaces de aprender patrones y distribuciones de datos a partir de conjuntos de entrenamiento, los cuales luego pueden generar datos que se asemejan a los ejemplos de entrenamiento, pero no son idénticos. Uno de los subconjuntos más poderosos de la IAG es el Generative Adversarial Network (GAN) o Red Generativa Adversativa.
Funcionamiento de los modelos de difusión
Los modelos de difusión se implementan para crear nuevos datos con base en procesos iterativos realizando cambios aleatorios pero controlados en una muestra de datos inicial. El proceso comienza con los datos originales y se adicionan cambios sutiles, conocido como ‘ruido’, haciendo que pierdan la similitud con el original de forma progresiva. Este ‘ruido’ se controla cuidadosamente para garantizar que los datos generados sigan siendo coherentes y realistas.
Después de adicionarlo tras múltiples iteraciones, el modelo de difusión invierte el proceso. La supresión o eliminación de ruido a la inversa remueve gradualmente el ruido para producir una nueva muestra de datos que se asemeje a la original.
Redes generativas adversativas
Un GAN el cual es conocido como Red Generativa Adversativa por sus siglas en inglés, es uno de los modelos de IA generativa que se basa en el concepto del modelo de difusión, el cual consta de dos redes neuronales principales: el generador y el discriminador. El generador crea datos no reales sumando ruido de forma aleatoria, y el discriminador evalúa su autenticidad mediante procesos de comparación entre los datos falsos producidos por el generador y con datos reales.
En el proceso de entrenamiento, el generador va mejorando de forma progresiva su capacidad de crear datos realistas. Por su lado, el discriminador va mejorando su capacidad de diferenciar entre lo real y lo falso. Este proceso adversativo continúa hasta que el generador produce datos tan cercanos a la realidad que el discriminador no puede diferenciarlos de los datos reales.
Las GAN se utilizan ampliamente para generar imágenes realistas, transferir estilos y realizar tareas de aumento de datos.
¿Cómo realmente la IAG puede impactar los sistemas de videovigilancia?
El uso de la IAG ha tenido un incremento importante desde el 2023. El caso más común, y que de seguro muchos han hablado, escuchado o incluso, usado, es ChatGPT el cual está generando interés en la IA dentro de la industria de la seguridad, pero, ¿cómo afectará realmente la IAG a la videovigilancia?
Hay varios aspectos que van desde la forma en que nos comunicamos mediante el uso del lenguaje natural hasta el procesamiento de imágenes en los equipos de videovigilancia, donde la IAG puede marcar la diferencia en diferentes etapas del desarrollo futuro de la industria de la seguridad. También es importante tener precauciones en el uso de esta tecnología. Aquí algunos aspectos relevantes:
Análisis de video
La IAG tendrá poco impacto o cambio en la precisión de las funciones de análisis de video en los sistemas de videovigilancia, al menos en las más básicas como detección de personas, vehículos, objetos representativos en la escena. Esto debido a que los algoritmos con base en IA implantados en borde seguirán utilizando las técnicas de aprendizaje automático/profundo que ya son ampliamente conocidas.
Si bien los modelos generativos de IA e inferencia visual pueden llegar a tener un nivel de análisis y comprensión contextual de imágenes y videos, los requisitos informáticos de estos algoritmos aún son mucho más altos que los de los algoritmos utilizados actualmente en las cámaras de videovigilancia. Las redes neuronales convolucionales (CNN) utilizadas para análisis de vídeo ya tienen un rendimiento sólido en la detección de personas/vehículos/objetos y han sido optimizadas para aplicaciones específicas como reconocimiento facial y LPR. Al menos por el corto y mediano plazo, los transformadores de IAG no cambiarán la precisión del análisis de video y los algoritmos con los principios de funcionamiento actual seguirán vigentes y cada vez más ampliamente utilizados.
Búsqueda forense
Por otro lado, la IAG mejorará los procesos de búsqueda forense en los sistemas de videovigilancia al procesar el lenguaje natural y filtrar alertas. De igual manera, mejorará los análisis de otras funciones emergentes en la industria, como el análisis de comportamiento anormal, agresiones basadas en análisis de audio, etc., al proporcionar una comprensión contextual de las imágenes y videos, tanto en vivo como grabados. La IAG y los Modelos de Lenguaje Grande (LLM) mejorarán las interfaces de búsqueda. Los LLM facilitarán la búsqueda de análiticas e información de interés con sus capacidades de procesamiento del lenguaje natural, extrayendo etiquetas analíticas relevantes sobre las consultas de los usuarios, con cierta tolerancia a fallos de ortografía o gramática.
Efecto comercial
Puede surgir un interés comercial entre aquellos compradores que no profundizan en detalles tecnológicos y se sienten atraídos por las soluciones de IA, especialmente debido a la atención que atrae la IAG aplicada a campañas de marketing, incluso muchas personalizadas, aunque no genere mejoras significativas en el procesamiento de video en las soluciones de videovigilancia.
Mesas de ayuda y soporte técnico
Varios fabricantes comenzarán a implementar IA ChatBots para brindar servicio de soporte técnico basado en LLM, mejorando la eficiencia del soporte técnico y asistencia a fallos en los próximos años. Esto mejorará las interacciones con los clientes y podrá reducir las quejas o no conformes, tanto de usuarios finales como de integradores.
Riesgo de imágenes y videos falsos
En contraparte, se debe estar preparado para contrarrestar a los actores malintencionados que seguramente utilizarán la IAG para crear imágenes y vídeos falsos con gran precisión y difíciles de identificar. Esto supondrá un reto importante para los fabricantes, quienes deberán priorizar las medidas de seguridad para garantizar la autenticidad de las secuencias de vídeo. Esto implica adoptar prácticas cada vez más actualizadas desde la implementación de estrategias de seguridad desde la fase de diseño.
Transformadores y modelos de inferencia visual
Con la incorporación de los Vision Transformers (ViT) representa un cambio estructural en los algoritmos de visión por computadora, alejándose del uso tradicional de redes neuronales convolucionales (CNN). Según los últimos reportes de tecnología, los ViT tienen un excelente desempeño en la captura de diferentes contextos en imágenes y representa un enfoque complementario a lo alcanzado con las CNN en el procesamiento de características de imágenes específicas.
La combinación de ViT y CNN puede ampliar las capacidades de análisis de vídeo, particularmente en la comprensión y precisión de la escena. El uso de ViT con CNN puede crear un proceso de desarrollo más eficiente al generar conjuntos de datos más grandes para el entrenamiento de algoritmos, simplificar el procesamiento de etiquetado de datos mediante un flujo de trabajo automático de aprendizaje automático y mejorar la calidad de los conjuntos de datos para la videovigilancia.
El riesgo de las imágenes generadas artificialmente
Las tecnologías de IAG permiten a actores malintencionados crear imágenes y vídeos falsos mediante técnicas de deepfake. Estos, al ser generados por redes generativas adversativas, son cada vez más difíciles de diferenciar de imágenes genuinas, lo que plantea desafíos importantes en áreas que van desde la seguridad personal hasta la desinformación. La capacidad de estos sistemas de IA para manipular elementos visuales y auditivos con alta precisión permite la creación de contenido falso convincente que puede usarse con fines nocivos, como robo de identidad, fraude o campañas de desinformación.
En respuesta a esta creciente amenaza, existirá una fuerte presión hacia fabricantes e integradores para que implementen mecanismos sólidos de seguridad para garantizar la integridad y autenticidad de las secuencias de vídeo de los sistemas de seguridad. Esto implica desarrollar e integrar sistemas de verificación avanzados que utilizan técnicas de procesamiento de imágenes para detectar anomalías en el contenido digital y signos de manipulación. Para verificar su autenticidad, estos sistemas deben poder analizar varios aspectos de los archivos multimedia, incluidos los detalles de las imágenes y metadatos a nivel de píxeles.
Una tecnología con mucho de ancho como de largo
La IAG, especialmente a través de modelos como GAN, representa un salto significativo en la capacidad de las máquinas para crear contenido nuevo y original. Su aplicación exitosa puede tener un impacto profundo en campos que van desde el arte, hasta la simulación de datos en la investigación científica. Su contribución en los sistemas de videovigilancia se podrá centrar más en mejorar las capacidades de interactuar con el sistema, como la búsqueda inteligente de video, y en la forma de proporcionar soporte y soluciones tanto por parte de los fabricantes como, por qué no, de los integradores. De manera alterna, a medida que avanzamos en este campo, es esencial abordar los desafíos éticos y técnicos para garantizar un uso responsable y beneficioso de esta tecnología para todas las sociedades.
Jairo Rojas Campo
Ing. Electrónico de la Pontificia Universidad Javeriana, especialista en Gerencia de Proyectos, con experiencia como líder de gestión de proyectos en varias empresas reconocidas del gremio de seguridad en el país desde el 2001. Cuenta con múltiples certificaciones en seguridad electrónica en las líneas de CCTV, sistemas de alarmas de intrusión, detección de incendio, controles de acceso, plataformas de integración entre otras.
Actualmente realiza actividades orientadas a la transferencia de su conocimiento y experiencia a equipos de trabajo del sector, realiza diseño y especificación de proyectos. Apasionado por el ciclismo de ruta y ciclo montañismo.
Solo usuarios registrados pueden realizar comentarios. Inicia sesión o Regístrate.