El reconocimiento de las actividades humanas es un campo esencial en la visión por ordenador. La mayor parte de la actividad humana consiste en la interacción entre los seres humanos y los objetos. En los últimos años se han realizado muchos trabajos exitosos sobre el reconocimiento de la interacción hombre-objeto (HOI) y se han obtenido resultados aceptables. Sin embargo, son totalmente supervisados y necesitan entrenar datos etiquetados para todas las HOI. Debido al enorme espacio de interacciones hombre-objeto, enumerar y proporcionar los datos de entrenamiento para todas las categorías posibles es costoso y poco práctico. Proponemos un enfoque para escalar el reconocimiento de interacciones hombre-objeto en datos de vídeo mediante la técnica de aprendizaje de cero disparos para resolver este problema. Nuestro método reconoce un verbo y un objeto del vídeo y hace una clase de HOI. El reconocimiento de los verbos y objetos en lugar de los HOI permite identificar una nueva combinación de verbos y objetos. Así, se puede identificar una nueva clase HOI, que no es vista por el sistema de reconocimiento. Introducimos una arquitectura de red neuronal que puede entender y representar los datos de vídeo. El sistema propuesto aprende los verbos y los objetos a partir de los datos de entrenamiento disponibles en la fase de formación y puede identificar los pares verbo-objeto en un vídeo en el momento de la prueba. Así, el sistema puede identificar la clase HOI con diferentes combinaciones de objetos y verbos. Además, proponemos utilizar la información lateral para combinar los verbos y los objetos con el fin de formar pares verbo-objeto válidos. Esto ayuda a prevenir la detección de HOIs raros y probablemente erróneos. La información lateral procede de técnicas de incrustación de palabras. Además, proponemos un nuevo método de agregación de características para agregar las características de alto nivel extraídas de los fotogramas de vídeo antes de alimentar el clasificador. Demostramos que este método de agregación de características es más eficaz para las acciones que incluyen múltiples subacciones. Evaluamos nuestro sistema con el conjunto de datos desafiables Charades, introducido recientemente, que contiene muchas categorías HOI en los vídeos. Demostramos que nuestro sistema propuesto puede detectar clases de HOI no vistas, además del reconocimiento aceptable de los tipos vistos. Por lo tanto, el número de clases identificables por el sistema es mayor que el número de clases utilizadas para el entrenamiento.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Retractado: Dedicación de límite de velocidad asistido por inteligencia en carreteras utilizando VANET
Artículo:
Sensores resistivos basados en Sb-SnO2-Nanosized para la detección de NO2
Artículo:
Estudio de Adaptabilidad y Estabilidad de Genotipos Seleccionados de Sorgo Dulce para la Producción de Etanol bajo Diferentes Ambientes Utilizando Análisis AMMI y Biplots GGE
Artículo:
Efectos sobre las propiedades mecánicas del PET reciclado en los compuestos a base de cemento
Artículo:
Efecto del Azida de Sodio en Rasgos Cualitativos y Cuantitativos del Tallo en la Generación M2 de Genotipos de Sésamo Etíope ( L.).