La descripción automática de imágenes con descripciones adecuadas se ha convertido en un problema interesante y desafiante. En este documento, presentamos un modelo conjunto AICRL, que es capaz de llevar a cabo la descripción automática de imágenes basada en ResNet50 y LSTM con atención suave. AICRL consta de un codificador y un decodificador. El codificador adopta ResNet50 basado en la red neuronal convolucional, que crea una representación extensa de la imagen dada al incrustarla en un vector de longitud fija. El decodificador está diseñado con LSTM, una red neuronal recurrente y un mecanismo de atención suave, para enfocar selectivamente la atención en ciertas partes de una imagen para predecir la siguiente oración. Hemos entrenado AICRL en un gran conjunto de datos MS COCO 2014 para maximizar la probabilidad de la oración de descripción objetivo dada las imágenes de entrenamiento y lo hemos evaluado en varias métricas como BLEU, METEROR y CIDEr. Nuestros resultados experimentales indican que AICRL es efectivo en la gener
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Efectos colaterales de la obsolescencia tecnológica
Artículo:
Seguimiento y Evaluación de Riesgos en Pacientes con Infarto de Miocardio Utilizando Redes Neuronales Artificiales
Artículo:
Un algoritmo de detección de información sensible basado en redes convolucionales de grafos.
Artículo:
Reforma de la enseñanza de inglés oral universitaria impulsada por tecnología de Big Data y Redes Neuronales Profundas.
Artículo:
Investigación sobre el Modelo de Evaluación de Decisiones para el Establecimiento de Carriles HOV