La respuesta visual a preguntas (VQA, por sus siglas en inglés) es la respuesta en lenguaje natural de imágenes visuales. El modelo de VQA necesita ofrecer respuestas correspondientes según preguntas específicas basadas en la comprensión de imágenes, siendo lo más importante entender la relación entre imágenes y lenguaje. Por lo tanto, este artículo propone un nuevo modelo, Representación del Codificador de Fusión Multimodal Denso Basado en Transformer, abreviado como RDMMFET, que puede aprender el conocimiento relacionado entre visión y lenguaje. El modelo RDMMFET consta de tres partes: codificador de lenguaje denso, codificador de imagen y codificador de fusión multimodal. Además, diseñamos tres tipos de tareas de preentrenamiento: modelo de lenguaje enmascarado, modelo de imagen enmascarado y tarea de fusión multimodal. Estas tareas de preentrenamiento pueden ayudar a entender la alineación detallada entre el texto y las regiones de la imagen. Los resultados de simulación en el conjunto de datos de VQA v2.0 muestran que el modelo RDMMFET puede funcionar mejor que el modelo anterior. Finalmente, realizamos estudios detallados de ablación sobre el modelo RDMMFET y proporcionamos los resultados de visualización de atención, lo que demuestra que el modelo RDMMFET puede mejorar significativamente el efecto de VQA.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Optimización del enlace de transmisión de energía inalámbrica considerando el relevo de energía de microondas.
Artículo:
Una Metodología de Seguridad Innovadora para las Redes Inteligentes: Un Estudio de Caso de Cifrado Basado en Microcomputadoras para Dispositivos PMU
Artículo:
Método de Predicción de Posición GPS Basado en el Algoritmo de Polinización de Flores Basado en Mapas Caóticos.
Artículo:
Algoritmos paralelos de flujo equilibrado y flujo medio ponderado para modelos de aguas someras mediante CUDA
Artículo:
Un novedoso sistema hipercaótico de cifrado de imágenes basado en el algoritmo de optimización por enjambre de partículas y autómatas celulares
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
Los web services como herramienta generadora de valor en las organizaciones
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Libro:
Ergonomía en los sistemas de trabajo