Biblioteca122.294 documentos en línea

Artículo

Scaling Human-Object Interaction Recognition in the Video through Zero-Shot LearningEscalar el reconocimiento de la interacción persona-objeto en el vídeo a través del aprendizaje de cero disparos

Resumen

El reconocimiento de las actividades humanas es un campo esencial en la visión por ordenador. La mayor parte de la actividad humana consiste en la interacción entre los seres humanos y los objetos. En los últimos años se han realizado muchos trabajos exitosos sobre el reconocimiento de la interacción hombre-objeto (HOI) y se han obtenido resultados aceptables. Sin embargo, son totalmente supervisados y necesitan entrenar datos etiquetados para todas las HOI. Debido al enorme espacio de interacciones hombre-objeto, enumerar y proporcionar los datos de entrenamiento para todas las categorías posibles es costoso y poco práctico. Proponemos un enfoque para escalar el reconocimiento de interacciones hombre-objeto en datos de vídeo mediante la técnica de aprendizaje de cero disparos para resolver este problema. Nuestro método reconoce un verbo y un objeto del vídeo y hace una clase de HOI. El reconocimiento de los verbos y objetos en lugar de los HOI permite identificar una nueva combinación de verbos y objetos. Así, se puede identificar una nueva clase HOI, que no es vista por el sistema de reconocimiento. Introducimos una arquitectura de red neuronal que puede entender y representar los datos de vídeo. El sistema propuesto aprende los verbos y los objetos a partir de los datos de entrenamiento disponibles en la fase de formación y puede identificar los pares verbo-objeto en un vídeo en el momento de la prueba. Así, el sistema puede identificar la clase HOI con diferentes combinaciones de objetos y verbos. Además, proponemos utilizar la información lateral para combinar los verbos y los objetos con el fin de formar pares verbo-objeto válidos. Esto ayuda a prevenir la detección de HOIs raros y probablemente erróneos. La información lateral procede de técnicas de incrustación de palabras. Además, proponemos un nuevo método de agregación de características para agregar las características de alto nivel extraídas de los fotogramas de vídeo antes de alimentar el clasificador. Demostramos que este método de agregación de características es más eficaz para las acciones que incluyen múltiples subacciones. Evaluamos nuestro sistema con el conjunto de datos desafiables Charades, introducido recientemente, que contiene muchas categorías HOI en los vídeos. Demostramos que nuestro sistema propuesto puede detectar clases de HOI no vistas, además del reconocimiento aceptable de los tipos vistos. Por lo tanto, el número de clases identificables por el sistema es mayor que el número de clases utilizadas para el entrenamiento.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento