Biblioteca122.294 documentos en línea

Artículo

Realistic Speech-Driven Talking Video Generation with Personalized PoseGeneración realista de videos hablados impulsada por el habla con poses personalizadas.

Resumen

En este trabajo, proponemos un método para transformar la información del habla de un hablante en un video de un personaje objetivo hablando; el método podría hacer que la sincronización de la forma de la boca, la expresión y la postura corporal sean más realistas en el video del hablante sintetizado. Esta es una tarea desafiante porque los cambios de forma de la boca y postura están vinculados con la información semántica del audio. El entrenamiento del modelo es difícil de converger, y el efecto del modelo es inestable en escenas complejas. Los métodos existentes de hablantes impulsados por el habla no pueden resolver este problema de manera efectiva. El método propuesto en este documento primero genera la secuencia de puntos clave de la cara y posturas corporales de los hablantes a partir de la señal de audio en tiempo real y luego visualiza estos puntos clave como una serie de imágenes esqueléticas bidimensionales. Posteriormente, generamos el video real del hablante a través de la red de generación de video. Tomamos un muestreo aleatorio de clips de audio, codificamos los

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento