Describimos el diseño de un sistema que consta de varios componentes de procesamiento de audio y video en tiempo real de última generación que permiten la manipulación de flujos multimodales (por ejemplo, edición automática en línea para aplicaciones de videoconferencias multiparte) en entornos abiertos y sin restricciones. Los algoritmos subyacentes están diseñados para permitir que múltiples personas entren, interactúen y salgan de la escena observable sin restricciones. Incluyen la localización continua de objetos de audio y su aplicación para la codificación espacial de objetos de audio, la detección y seguimiento de caras, la estimación de posturas de cabeza y enfoque visual de atención, la detección y localización de eventos verbales y paralingüísticos, y la asociación y fusión de estos diferentes eventos. Combinados todos juntos, representan flujos multimodales con objetos de audio y objetos de video semánticos y proporcionan información semántica para sistemas de manipulación de flujos (como un director virtual). Se han realizado varios experimentos para evaluar el rend
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Gestión de ciclo de vida del producto mediante un ambiente de negocios innovador y competitivo
Video:
Entrevista a Mar Cabra. Programa en Big Data y Business Intelligence
Video:
Webinar. Big data y analítica para la toma de decisiones
Artículo:
Investigación sobre el Método de Mosaico de Imágenes de Fondo de Ojo Basado en Algoritmos Genéticos
Artículo:
La estrategia del big data como factor clave de competitividad en las empresas