Predecir las emociones evocadas en un espectador al ver películas es un elemento de investigación importante en el análisis de contenido de video afectivo en una amplia gama de aplicaciones. Generalmente, la emoción del público es evocada por el efecto combinado de los mensajes audiovisuales de las películas. La investigación actual ha utilizado principalmente características de audio y visual de nivel medio y alto de forma aproximada para predecir las emociones experimentadas, pero aún no se ha estudiado bien la combinación de información semántica para refinar las características y mejorar los resultados de predicción de emociones. Por lo tanto, partiendo de considerar la estructura temporal y las unidades semánticas de una película, este artículo propone un método de representación de características audiovisuales basado en planos y un modelo de memoria a largo plazo (LSTM) que incorpora un mecanismo de atención temporal para predecir las emociones experimentadas. En primer lugar, la representación de características audiovisuales basada en planos define un método para extraer y combinar características de audio y visual de cada plano, y se utilizan modelos de preentren
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Hacia un enfoque ágil para gestionar el efecto de los requisitos en la arquitectura de software durante el desarrollo de software global.
Artículo:
Aplicación del Algoritmo Genético de Múltiples Poblaciones en la Optimización del Problema del Plan de Circulación del Tren.
Artículo:
Configuración complementaria y flujo óptimo de energía de sistemas CCHP-ORC utilizando un enfoque de modelado matricial.
Artículo:
Investigación de tecnologías de cooperación en redes inalámbricas heterogéneas
Artículo:
Arquitecturas 3D de Red en Chip utilizando Mallas Homogéneas y Planos de Piso Heterogéneos.