El lenguaje y la visin son las dos partes ms esenciales de la inteligencia humana para interpretar el mundo real que nos rodea. Cmo establecer conexiones entre lenguaje y visin es el punto clave de la investigacin actual. Recientemente se han estudiado a fondo mtodos de multimodalidad como la incrustacin semntica visual, que unifica imgenes y textos correspondientes en el mismo espacio de caractersticas. Inspirndonos en el reciente desarrollo del aumento de datos de texto y en una tcnica sencilla pero potente propuesta denominada EDA (easy data augmentation), podemos ampliar la informacin con datos dados utilizando EDA para mejorar el rendimiento de los modelos. En este artculo, aprovechamos la tcnica de aumento de datos de texto y la inicializacin de incrustacin de palabras para la recuperacin multimodal. Utilizamos EDA para el aumento de los datos de texto, la inicializacin de la incrustacin de palabras para el codificador de texto basado en redes neuronales recurrentes y la minimizacin de la brecha entre los dos espacios mediante la prdida de clasificacin de tripletas con minera negativa dura. En dos conjuntos de datos basados en Flickr, conseguimos la misma recuperacin con slo el 60% del conjunto de datos de entrenamiento que con el entrenamiento normal con todos los datos disponibles. Los resultados de los experimentos demuestran la mejora de nuestro modelo propuesto y, en todos los conjuntos de datos de este artculo (Flickr8k, Flickr30k y MS-COCO), nuestro modelo obtiene mejores resultados en las tareas de anotacin y recuperacin de imgenes; los experimentos tambin demuestran que el aumento de datos de texto es ms adecuado para conjuntos de datos ms pequeos, mientras que la inicializacin con incrustacin de palabras es adecuada para los ms grandes.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Decaimiento uniforme de soluciones para una ecuación de onda viscoelástica no lineal con disipación en el borde.
Artículos:
Un modelo para el análisis de tendencias en el escenario de las compras en línea mediante la minería de patrones de hesitación multinivel
Artículos:
Teoremas de punto fijo comunes para aplicaciones contractivas no lineales en espacios métricos desplazados.
Artículos:
Dinámica global de un modelo de HTLV-1 con infección de células a células y mitosis
Artículos:
Estimaciones de error a posteriori para los Métodos Generalizados de Descomposición de Dominio con Superposición.
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.