Avec une technologie Speech-to-Video Wan2.2-S2V, s’appuie sur une technologie avancée d’animation guidée par l’audio et l’IA
Hangzhou, Chine, 29 août 2025 – Alibaba a dévoilé Wan2.2-S2V (Speech-to-Video), son dernier modèle open-source conçu pour la création de vidéos d’humains digitales. Cet outil innovant transforme des photos de portrait en avatars de qualité cinématographique, capables de parler, chanter et performer.
Faisant partie de la série de génération vidéo Wan2.2 d’Alibaba, le nouveau modèle peut produire des vidéos animées de haute qualité à partir d’une seule image et d’un extrait audio.
Wan2.2-S2V propose des fonctionnalités d’animation variées, permettant de produire des vidéos dans différents formats de cadrage, du portrait au plan en pied. Le modèle génère automatiquement les mouvements des personnages ainsi que certains éléments de l’environnement à partir d’instructions données dans les prompts. Cette approche permet d’obtenir des représentations visuelles précises, adaptées à divers besoins de narration et de conception.
Basé sur une technologie avancée d’animation guidée par l’audio, le modèle permet de générer des personnages aux comportements réalistes, allant du dialogue à des séquences musicales, avec la possibilité d’intégrer plusieurs personnages dans une même scène. À partir d’enregistrements vocaux, il peut produire des mouvements animés crédibles et s’adapter à une large gamme d’avatars, qu’il s’agisse de personnages de type cartoon, d’animaux ou de figures stylisées.
Pour répondre aux différents besoins des créateurs de contenu professionnels, la technologie propose des résolutions de sortie flexibles de 480P et 720P. Cela assure un rendu visuel de qualité, conforme aux standards professionnels et créatifs, adapté aussi bien aux contenus diffusés sur les réseaux sociaux qu’aux présentations à usage professionnel.
Technologies innovantes
Wan2.2-S2V dépasse le cadre des animations traditionnelles de type “talking-head” en associant un contrôle global des mouvements basé sur le texte à des mouvements locaux affinés par l’audio. Cette combinaison permet de produire des personnages naturels et expressifs, y compris dans des scénarios complexes.
Une avancée concerne la technique de traitement des images utilisée par le modèle. En compressant des séquences d’images historiques, quelle que soit leur longueur, en une représentation latente compacte, la technologie réduit significativement la charge de calcul. Cette approche rend possible la production de vidéos longues plus stables, apportant une réponse à l’un des principaux défis de la création de contenus animés de longue durée.
Les performances du modèle s’appuient sur une méthodologie d’entraînement complète. L’équipe de recherche d’Alibaba a constitué un vaste jeu de données audio-visuelles spécifiquement conçu pour des usages en production cinématographique et télévisuelle. Grâce à une approche multi-résolution, Wan2.2-S2V permet une génération vidéo flexible, adaptée aussi bien aux formats courts verticaux qu’aux productions traditionnelles de cinéma et de télévision en format horizontal.
Les capacités du modèle sont renforcées par sa méthodologie d’entraînement complète. L’équipe de recherche d’Alibaba a élaboré une base de données audio-visuelles spécialement conçue pour les scénarios de production cinématographique et télévisuelle. Grâce à une approche d’entraînement multi-résolution, Wan2.2-S2V prend en charge une génération vidéo flexible dans des formats variés, allant des contenus verticaux de courte durée jusqu’aux productions cinématographiques et télévisuelles horizontales traditionnelles.
Le modèle Wan2.2-S2V est disponible en téléchargement sur Hugging Face et GitHub, ainsi que via la communauté open-source d’Alibaba Cloud, ModelScope. Déjà actif dans le domaine de l’open source, Alibaba avait mis à disposition les modèles Wan2.1 en février 2025 puis Wan2.2 en juillet. À ce jour, l’ensemble de la série Wan totalise plus de 6,9 millions de téléchargements sur Hugging Face et ModelScope.
À propos de la société / marque :
Alibaba Cloud
Voir la Société / Marque
Alibaba Cloud
Voir la Société / Marque