En este trabajo, proponemos un método para transformar la información del habla de un hablante en un video de un personaje objetivo hablando; el método podría hacer que la sincronización de la forma de la boca, la expresión y la postura corporal sean más realistas en el video del hablante sintetizado. Esta es una tarea desafiante porque los cambios de forma de la boca y postura están vinculados con la información semántica del audio. El entrenamiento del modelo es difícil de converger, y el efecto del modelo es inestable en escenas complejas. Los métodos existentes de hablantes impulsados por el habla no pueden resolver este problema de manera efectiva. El método propuesto en este documento primero genera la secuencia de puntos clave de la cara y posturas corporales de los hablantes a partir de la señal de audio en tiempo real y luego visualiza estos puntos clave como una serie de imágenes esqueléticas bidimensionales. Posteriormente, generamos el video real del hablante a través de la red de generación de video. Tomamos un muestreo aleatorio de clips de audio, codificamos los
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Contrato psicológico de las relaciones comprador-proveedor en proyectos de construcción: Un análisis basado en la teoría de juegos
Artículo:
Esquema rentable de cifrado proxy de firmas para Internet de los objetos
Artículo:
Desarrollo y Pruebas Alfa de la Aplicación EzHifz: Herramienta para la Memorización del Alcorán.
Artículo:
Construcción de un modelo de cadena de valor de comercio electrónico basado en redes neuronales convolucionales residuales profundas en el dominio de la onda estacionaria.
Artículo:
Detección de ataques de suplantación de identidad mediante aprendizaje automático en comunicaciones intertecnológicas