Biblioteca122.739 documentos en línea

Artículo

Real-Time Human Detection for Aerial Captured Video Sequences via Deep ModelsDetección de personas en tiempo real para secuencias de vídeo de captura aérea mediante modelos profundos

Resumen

La detección de personas en los vídeos desempeña un papel importante en diversas aplicaciones de la vida real. La mayoría de los enfoques tradicionales dependen de la utilización de características elaboradas a mano que dependen del problema y son óptimas para tareas específicas. Además, son muy susceptibles a eventos dinámicos como los cambios de iluminación, las fluctuaciones de la cámara y las variaciones en el tamaño de los objetos. Por otro lado, los enfoques de aprendizaje de características propuestos son más baratos y sencillos porque las características altamente abstractas y discriminativas pueden producirse automáticamente sin necesidad de conocimientos expertos. En este trabajo, utilizamos métodos de aprendizaje automático de características que combinan el flujo óptico y tres modelos profundos diferentes (es decir, una red neural convolucional supervisada (S-CNN), un extractor de características CNN preentrenado y una máquina de aprendizaje extremo jerárquica) para la detección de personas en vídeos capturados con una cámara no estática en una plataforma aérea con altitudes variables. Los modelos se entrenan y prueban en el conjunto de datos aéreos UCF-ARG, disponible públicamente y de gran dificultad. Se analiza la comparación entre estos modelos en términos de entrenamiento, precisión de las pruebas y velocidad de aprendizaje. La evaluación del rendimiento tiene en cuenta cinco acciones humanas (cavar, saludar, lanzar, caminar y correr). Los resultados experimentales demuestran que los métodos propuestos tienen éxito en la tarea de detección humana. La CNN preentrenada produce una precisión media del 98,09%. S-CNN produce una precisión media del 95,6% con soft-max y del 91,7% con Support Vector Machines (SVM). H-ELM tiene una precisión media del 95,9%. Utilizando una unidad central de procesamiento (CPU) normal, el tiempo de entrenamiento de H-ELM tarda 445 segundos. El aprendizaje de S-CNN tarda 770 segundos con una Unidad de Procesamiento Gráfico (GPU) de alto rendimiento.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento