Biblioteca122.739 documentos en línea

Artículo

RDMMFET: Representation of Dense Multimodality Fusion Encoder Based on TransformerRDMMFET: Representación del codificador denso de fusión multimodal basado en transformada

Resumen

La respuesta visual a preguntas (VQA, por sus siglas en inglés) es la respuesta en lenguaje natural de imágenes visuales. El modelo de VQA necesita ofrecer respuestas correspondientes según preguntas específicas basadas en la comprensión de imágenes, siendo lo más importante entender la relación entre imágenes y lenguaje. Por lo tanto, este artículo propone un nuevo modelo, Representación del Codificador de Fusión Multimodal Denso Basado en Transformer, abreviado como RDMMFET, que puede aprender el conocimiento relacionado entre visión y lenguaje. El modelo RDMMFET consta de tres partes: codificador de lenguaje denso, codificador de imagen y codificador de fusión multimodal. Además, diseñamos tres tipos de tareas de preentrenamiento: modelo de lenguaje enmascarado, modelo de imagen enmascarado y tarea de fusión multimodal. Estas tareas de preentrenamiento pueden ayudar a entender la alineación detallada entre el texto y las regiones de la imagen. Los resultados de simulación en el conjunto de datos de VQA v2.0 muestran que el modelo RDMMFET puede funcionar mejor que el modelo anterior. Finalmente, realizamos estudios detallados de ablación sobre el modelo RDMMFET y proporcionamos los resultados de visualización de atención, lo que demuestra que el modelo RDMMFET puede mejorar significativamente el efecto de VQA.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento