Búsqueda optimizada de video mediante modelos de lenguaje visual (VLM) en videovigilancia
Derechos de autor: TECNOSeguro

Búsqueda optimizada de video mediante modelos de lenguaje visual (VLM) en videovigilancia

Exploramos la aplicación de los Modelos de Lenguaje Visual (VLMs) para la búsqueda optimizada de video con base en IA en el campo específico de la videovigilancia. Analizamos los fundamentos de los VLMs, su aplicación en el análisis y la búsqueda de contenido de video, las diferentes técnicas y métodos para optimizar esta búsqueda, y las aplicaciones concretas en videovigilancia. 

En la era actual, los sistemas de videovigilancia se han convertido en una herramienta indispensable para la seguridad, la gestión y el análisis en una amplia gama de entornos, desde espacios públicos y comerciales hasta infraestructuras críticas e instalaciones industriales. La proliferación de cámaras de alta resolución y la grabación continua han generado un volumen masivo de datos de video, cuya magnitud plantea desafíos significativos para el almacenamiento, la gestión y, especialmente, la búsqueda de información relevante. 

Para abordar este tema tendremos en cuenta: 

Los desafíos de la búsqueda tradicional de video

Los métodos tradicionales de búsqueda de video, que a menudo se basan en la revisión manual de las grabaciones o en la indexación mediante metadatos limitados y propensos a errores, resultan ineficientes y consumen una gran cantidad de tiempo.

La capacidad humana para analizar horas de metraje en busca de un evento o detalle específico es inherentemente limitada, lo que resalta la necesidad de soluciones más inteligentes y automatizadas que permitan aprovechar al máximo el potencial de la videovigilancia. 

La incapacidad de encontrar rápidamente información crucial dentro de este vasto océano de datos de video puede obstaculizar las investigaciones, retrasar las respuestas a incidentes y, en última instancia, disminuir la efectividad de los sistemas de vigilancia. Por lo tanto, la demanda de técnicas de búsqueda de video más avanzadas y eficientes es cada vez más apremiante.

Los modelos de lenguaje visual (VLM) y su potencial para la búsqueda optimizada de video en videovigilancia

Los VLMs representan una clase emergente de sistemas de inteligencia artificial multimodal que combinan la sofisticación de los modelos de lenguaje grandes (LLMs) con la capacidad de "ver" a través de codificadores de visión.

Esta fusión de la comprensión visual y el procesamiento del lenguaje natural permite a los VLMs procesar e interpretar simultáneamente datos de video, imágenes y texto, generando respuestas textuales basadas en una comprensión avanzada del contenido.

Los VLMs aprenden a mapear las intrincadas relaciones entre los datos textuales y visuales, lo que les permite realizar tareas complejas como la descripción detallada de imágenes, la respuesta a preguntas basadas en contenido visual y la generación de imágenes a partir de descripciones textuales.

En el contexto de la videovigilancia, los VLMs ofrecen una nueva y poderosa forma de interactuar con los datos de video. En lugar de depender de palabras clave o etiquetas predefinidas, los usuarios pueden realizar búsquedas utilizando lenguaje natural, describiendo el evento, objeto o persona que están buscando. 

Esta capacidad de buscar basándose en el significado del contenido, en lugar de solo en la presencia de ciertas palabras en los metadatos, abre un abanico de posibilidades para la búsqueda optimizada de video en sistemas de videovigilancia.

Definición y componentes clave de los VLMs

Los VLMs son sistemas de inteligencia artificial que integran las capacidades de la visión por computadora, que permite a las máquinas interpretar y analizar datos visuales como imágenes y videos, y el procesamiento del lenguaje natural (PNL), que se centra en la comprensión y generación del lenguaje humano.

Esta combinación permite a los VLMs procesar y comprender simultáneamente información tanto visual como textual, estableciendo un puente entre estos dos dominios. Los VLMs típicamente se componen de dos elementos fundamentales: 

  • Codificador de lenguaje.
  • Codificador de visión.

El codificador de lenguaje es responsable de capturar el significado semántico y las asociaciones contextuales entre palabras y frases, transformándolas en representaciones numéricas llamadas embeddings de texto que pueden ser procesadas por el modelo de IA.

Por otro lado, el codificador de visión se encarga de extraer las características visuales esenciales de una imagen o video, como colores, formas y texturas, convirtiéndolas también en embeddings vectoriales que el modelo puede utilizar.

La capacidad de estos dos codificadores para trabajar de manera conjunta, mapeando la información visual y textual en un espacio de representación común, es la clave del poder y la versatilidad de los VLMs.

Arquitecturas típicas de VLMs

La Arquitectura Transformer, originalmente diseñada para procesamiento de lenguaje natural, ha sido clave en el desarrollo de los VLM. Gracias a su mecanismo de autoatención, permite captar relaciones a largo plazo y enfocarse en las partes más relevantes de la entrada, ya sea texto o imágenes. Esta capacidad ha sido aprovechada tanto para el análisis de lenguaje como para el procesamiento visual mediante Vision Transformers (ViTs), siendo especialmente útil en tareas como el análisis de video.

Aplicación de VLMs al análisis y búsqueda de video

Cómo los VLMs procesan y comprenden el contenido de video

Inicialmente, los VLMs pueden descomponer un video en una secuencia de fotogramas individuales o en clips de video más cortos. Luego, analizan tanto los patrones espaciales, que corresponden a la información visual contenida en cada fotograma, como los patrones temporales, que describen cómo evoluciona el contenido visual a lo largo del tiempo.

Para extraer las características visuales de cada fotograma, los VLMs emplean codificadores de visión, que comúnmente se basan en arquitecturas de redes neuronales convolucionales CNNs o  ViTs. Posteriormente, para modelar las relaciones que existen entre estos fotogramas a lo largo del tiempo, se utilizan arquitecturas basadas en Transformers, que son capaces de capturar dependencias secuenciales y contextuales.

De esta manera, la comprensión del video por parte de los VLMs no se limita al reconocimiento de objetos estáticos dentro de un único fotograma, sino que abarca la dinámica y las interacciones de estos objetos a medida que se desarrollan en la secuencia de video.

Enfoque en la búsqueda de video basada en lenguaje natural

Dentro del conjunto de tareas de comprensión de video habilitadas por VLMs, la búsqueda de video basada en lenguaje natural destaca por su potencial para transformar la forma en que interactuamos con los datos de videovigilancia.

Los VLMs permiten a los usuarios buscar contenido de video utilizando consultas formuladas en lenguaje natural, en lugar de tener que depender de etiquetas, metadatos predefinidos o la revisión manual de las grabaciones.

Esta capacidad facilita enormemente la tarea de encontrar eventos o actividades específicas que puedan ser de interés dentro de los vastos volúmenes de datos de video generados por los sistemas de videovigilancia modernos. La búsqueda basada en lenguaje natural hace que el análisis de video sea accesible para una gama más amplia de usuarios, incluso aquellos que no poseen conocimientos técnicos especializados en visión por computadora o procesamiento de video.

Por ejemplo, un operador de seguridad o un investigador podría simplemente describir en lenguaje natural lo que está buscando, como "una persona con una mochila roja corriendo hacia la puerta principal", y el sistema basado en VLM se encargaría de analizar el contenido de los videos y encontrar los segmentos relevantes.

Técnicas para la optimización de la búsqueda de video con VLMs

Estrategias para la indexación eficiente de video utilizando embeddings de VLMs

Para una búsqueda de video más eficiente con VLMs, se utilizan embeddings que como vimos son vectores que representan el contenido visual y semántico generados a partir de fotogramas clave o segmentos del video. Estos se almacenan en bases de datos vectoriales, optimizadas para búsquedas por similitud. Se aplican técnicas de pooling (media, máximo, atención) para obtener un único vector representativo por clip de video. Esto permite búsquedas semánticas que van más allá de palabras clave exactas, encontrando videos conceptualmente similares a la consulta.

Aplicaciones concretas de VLMs en videovigilancia

Detección de objetos específicos

ts pro buesqueda 1Fuente: hanwhavision.euLos VLMs ofrecen capacidades avanzadas para la detección de objetos específicos en imágenes y videos de vigilancia. Mediante la combinación de la comprensión visual y el procesamiento del lenguaje natural, estos son capaces de identificar objetos de interés basándose en descripciones textuales, como "un arma", "un vehículo rojo" o "un paquete sospechoso".

Una ventaja significativa en este contexto es su capacidad para realizar detección de vocabulario abierto. Esto significa que pueden reconocer objetos incluso si no han sido entrenados explícitamente para identificar esa clase de objeto en particular, aprovechando su conocimiento general del mundo adquirido durante el entrenamiento en grandes conjuntos de datos de imágenes y texto.

Por ejemplo, un operador podría buscar "una persona con una mochila roja" sin necesidad de que el sistema haya sido entrenado específicamente para reconocer mochilas rojas, ya que el VLM puede inferir las características visuales de una mochila roja a partir de su comprensión del lenguaje y de conceptos visuales relacionados.

Identificación y seguimiento de personas de interés

ts pro buesqueda 2Fuente: newscientist.com

Los VLMs también se pueden aplicar a la identificación y seguimiento de personas de interés en sistemas de videovigilancia. Utilizando descripciones textuales, como "hombre con camisa azul y gafas" o "mujer con pelo largo y rubio", los VLMs pueden buscar e identificar personas que coincidan con estas características en las grabaciones de video.

Esta capacidad es especialmente útil en investigaciones criminales o para la seguridad en áreas restringidas, donde se requiere localizar a individuos específicos basándose en información descriptiva. Además, los VLMs pueden integrarse con sistemas de seguimiento de personas, lo que permite monitorear los movimientos de un individuo identificado a través de múltiples cámaras dentro de un área vigilada.

Si bien los sistemas tradicionales de reconocimiento facial pueden tener limitaciones en ciertas condiciones (como baja resolución o oclusión), la capacidad de los VLMs para utilizar descripciones más amplias basadas en la apariencia y la vestimenta ofrece una mayor flexibilidad para la identificación de personas.

Reconocimiento de eventos y comportamientos anómalos

ts pro buesqueda 3Fuente: een.com

El reconocimiento de eventos y comportamientos anómalos es otra aplicación importante de los VLMs en el ámbito de la videovigilancia. Los VLMs pueden utilizarse para detectar eventos inusuales o sospechosos en videos de vigilancia, como una persona cayéndose, un objeto siendo robado o comportamientos que sugieran agresión.

Una característica destacada de algunos VLMs es su capacidad para proporcionar explicaciones comprensibles sobre las decisiones de detección de anomalías, lo cual puede ser muy valioso para los operadores de seguridad al evaluar las alertas generadas por el sistema.

El reconocimiento de eventos basado en VLM tiene el potencial de automatizar la detección de incidentes y alertar al personal de seguridad en tiempo real, permitiendo una respuesta más rápida y eficiente ante situaciones críticas. Por ejemplo, un sistema basado en VLM podría configurarse para identificar automáticamente un "objeto dejado sin supervisión en un área restringida" o una "persona corriendo en dirección contraria al flujo normal de personas".

Casos de uso en diferentes escenarios de videovigilancia

La versatilidad de los VLMs permite su aplicación en una amplia variedad de escenarios de videovigilancia, adaptándose a las necesidades específicas de cada dominio.

  • En el ámbito de la seguridad pública:  pueden utilizarse para el monitoreo de calles y espacios públicos, facilitando la detección de actividades delictivas o comportamientos sospechosos.
  • En el comercio minorista: pueden ayudar en la prevención de robos y en el análisis del comportamiento del cliente dentro de las tiendas.
  • En el sector del transporte: pueden aplicarse al monitoreo del tráfico, a la seguridad en aeropuertos y estaciones de tren, y a la gestión de flotas.
  • En entornos industriales: pueden contribuir a la seguridad laboral, a la detección de fallas en equipos a través del análisis visual y al monitoreo de procesos.

La capacidad de configurar un sistema basado en VLM para detectar diferentes tipos de eventos o buscar objetos específicos, dependiendo del contexto y los requisitos de cada entorno de videovigilancia, subraya su flexibilidad y potencial de aplicación.

Retos y limitaciones actuales

Costos computacionales y requisitos de recursos

Uno de los principales desafíos en la aplicación de VLMs para la búsqueda optimizada de video en sistemas de videovigilancia son los altos costos computacionales y los significativos requisitos de recursos que estos modelos suelen demandar.

Los VLMs grandes, con miles de millones de parámetros, pueden requerir una potencia computacional considerable tanto para el entrenamiento como para la inferencia, lo que dificulta su implementación en sistemas de videovigilancia que operan con recursos limitados, especialmente en dispositivos perimetrales como cámaras IP o unidades de procesamiento en el borde.

El procesamiento de video, especialmente cuando se trata de videos de alta resolución o de larga duración, puede resultar particularmente costoso en términos de tiempo de procesamiento y recursos computacionales necesarios.

Esta limitación en los recursos computacionales sigue siendo una barrera importante para la adopción generalizada de VLMs en aplicaciones de videovigilancia en el mundo real, donde a menudo se requiere procesar feeds de video de múltiples cámaras en tiempo real.

Dificultades en el manejo de escenas complejas, oclusiones y condiciones ambientales variables

Los VLMs pueden enfrentar dificultades al analizar escenas de video complejas, con un gran número de objetos interactuando, o que presentan oclusiones, donde algunos objetos de interés están parcialmente ocultos.

Además, las condiciones ambientales variables, como cambios en la iluminación, la presencia de sombras o condiciones climáticas adversas, pueden afectar la calidad de las imágenes de video y, por lo tanto, el rendimiento de los VLMs en tareas como la detección y el reconocimiento de objetos o eventos.

La variabilidad inherente en la calidad del video de vigilancia, que a menudo incluye baja resolución, ruido visual o artefactos de compresión, también puede impactar negativamente la precisión y confiabilidad de los análisis realizados por los VLMs. Por lo tanto, la robustez de los VLMs en condiciones del mundo real, que son típicas en los entornos de videovigilancia, aún requiere mejoras significativas para garantizar su efectividad en una amplia gama de escenarios operativos.

Limitaciones en la comprensión temporal y el análisis de videos de larga duración

Muchos de los VLMs actuales tienen limitaciones en cuanto a la longitud de la ventana de contexto que pueden procesar de manera efectiva. Esta ventana de contexto se refiere al número de fotogramas o segmentos de video que el modelo puede considerar simultáneamente al realizar el análisis.

Cuando se trata de videos de larga duración, que pueden contener miles o incluso millones de fotogramas, estas ventanas de contexto limitadas pueden dificultar el análisis completo del video y la comprensión de eventos complejos que se desarrollan durante períodos prolongados.

Si bien se están realizando investigaciones para extender la capacidad de los VLMs para manejar videos más largos, la comprensión temporal y la capacidad de rastrear dependencias a largo plazo en secuencias de video siguen siendo desafíos importantes en el campo. En el contexto de la videovigilancia, donde las grabaciones pueden durar horas o incluso días, la capacidad de analizar eficazmente estos largos períodos de tiempo para identificar eventos específicos es crucial.

Sesgos en los resultados de los VLMs

Al igual que otros modelos de lenguaje grandes, los VLMs pueden ocasionalmente generar respuestas o descripciones que no se basan directamente en el contenido visual real que están analizando. Este fenómeno se conoce como "alucinación" y puede llevar a resultados de búsqueda o análisis que son incorrectos o engañosos.

Además, los VLMs son entrenados en grandes conjuntos de datos de imagen y texto que pueden contener sesgos inherentes. Estos sesgos pueden manifestarse en los resultados del modelo, llevando a un rendimiento desigual o a resultados inexactos para ciertos grupos demográficos o en escenarios específicos.

En aplicaciones de seguridad críticas como la videovigilancia, la confiabilidad de los VLMs depende en gran medida de la mitigación de estas alucinaciones y sesgos para asegurar que las decisiones basadas en su análisis sean precisas y equitativas.

Tendencias de investigación y desarrollo

Arquitecturas de VLMs más eficientes para videovigilancia

Una dirección clave para la investigación futura es la exploración y el desarrollo de arquitecturas de VLMs que sean más eficientes en términos computacionales y de recursos, lo que las haría más adecuadas para su implementación en el contexto de la videovigilancia, especialmente en dispositivos con recursos limitados, como cámaras IP y unidades de procesamiento en el borde.

Esto podría implicar la investigación de modelos más ligeros, con un menor número de parámetros, así como el desarrollo de arquitecturas específicamente optimizadas para el procesamiento de video en tiempo real y el manejo de las restricciones de memoria y energía típicas de los dispositivos perimetrales.

El objetivo es encontrar un equilibrio óptimo entre el rendimiento y la eficiencia computacional, de manera que los VLMs puedan realizar análisis sofisticados de video sin requerir una infraestructura de procesamiento prohibitivamente costosa ni consumir cantidades excesivas de energía.

Mejora del modelado temporal y la comprensión contextual en videos

Otra área importante para la investigación futura es la mejora del modelado temporal y la comprensión contextual en los VLMs cuando se aplican al análisis de video. Esto incluye el desarrollo de técnicas más avanzadas para capturar y modelar las dependencias temporales a largo plazo que son inherentes a las secuencias de video, permitiendo a los modelos comprender la evolución de los eventos y las relaciones causales que se desarrollan a lo largo del tiempo.

Desarrollo de métodos robustos para el manejo de video de vigilancia ruidoso y de baja calidad

Dado que la calidad del video de vigilancia en el mundo real a menudo no es óptima, con problemas como ruido, baja resolución, artefactos de compresión o condiciones de iluminación desfavorables, es crucial desarrollar métodos que permitan a los VLMs manejar de manera robusta este tipo de video.

La tendencia en este aspecto apunta hacia técnicas de preprocesamiento de video que mejoren la calidad de la imagen antes de que sea analizada por el VLM, así como el desarrollo de arquitecturas de modelos que sean intrínsecamente más resistentes al ruido y a las imperfecciones visuales. El uso de técnicas de aprendizaje auto-supervisado, en las que los modelos se entrenan en grandes cantidades de datos de video sin necesidad de etiquetas detalladas, también podría ser una dirección prometedora para mejorar la robustez de los VLMs en aplicaciones de videovigilancia.

Consideraciones éticas y de privacidad en la aplicación de VLMs en videovigilancia

A medida que los VLMs se vuelven más capaces y se utilizan más ampliamente en aplicaciones de videovigilancia, es fundamental abordar las consideraciones éticas y de privacidad asociadas con su uso. Los desarrollos futuros deben centrarse en la aplicación de métodos para mitigar los sesgos que puedan existir en los modelos y garantizar la equidad en sus resultados, evitando la discriminación o la identificación errónea basada en características protegidas. 

También es importante investigar y desarrollar técnicas para preservar la privacidad de las personas que son capturadas en las grabaciones de video, como métodos de anonimización o el procesamiento de la información sensible directamente en el dispositivo perimetral o procesamiento en el borde para reducir la necesidad de transmitir datos personales a servidores centralizados. La implementación responsable de VLMs en videovigilancia requiere una cuidadosa consideración de estas cuestiones éticas y de privacidad.

Artículos relacionados

Sobre TECNOSeguro

TECNOSeguro es la publicación on-line líder en audiencia para las industrias de las tecnologías de la seguridad de habla hispana. Una completa guía con información clave para profesionales de seguridad y TI, integradores, instaladores, consultores y distribuidores.

 

Redes Sociales:

NUESTROS BOLETINES INFORMATIVOS

Manténgase actualizado con las últimas tendencias y tecnologías de la industria de la seguridad. Regístrese gratuitamente para recibir nuestros boletines en su bandeja de email.

Regístrese Gratis