Wan 2.2 : le meilleur modèle open source de génération vidéo par IA vient de sortir

Wan 2.2 - Vidéo IA
Wan 2.2 - Vidéo IA

Introduction

Wan 2.2 est un modèle de génération vidéo par intelligence artificielle open source, publié en juillet 2025 par Tongyi Lab (Alibaba). Conçu comme une mise à niveau majeure de Wan 2.1, il introduit des innovations techniques clés : architecture Mixture-of-Experts (MoE), compression haute efficacité, meilleure esthétique cinématographique, et une compatibilité étendue avec des GPU accessibles. Grâce à son accès libre et à sa puissance, Wan 2.2 redéfinit les standards de la génération vidéo IA, tant pour les usages créatifs que scientifiques.


Innovations techniques clés

Architecture Mixture-of-Experts (MoE)

Wan 2.2 introduit une architecture Mixture-of-Experts (MoE) dans les modèles de diffusion vidéo. Elle permet d’augmenter la capacité du modèle sans accroître le coût d’inférence. Dans les modèles A14B :

  • Deux experts spécialisés sont utilisés :
    • Expert high-noise pour les premières étapes de débruitage (mise en place du plan global).
    • Expert low-noise pour affiner les détails visuels dans les dernières étapes.
  • Chaque expert contient 14 milliards de paramètres, mais seul un est activé à chaque étape, ce qui maintient la charge GPU stable tout en améliorant considérablement la qualité de génération.

Cette approche est inspirée des grands modèles de langage MoE et adaptée ici au traitement temporel de la vidéo.

Échelle de données étendue

Par rapport à Wan 2.1 :

  • Le volume d’entraînement en images a augmenté de +65,6 %.
  • Le volume de vidéos a augmenté de +83,2 %.

Cette croissance améliore fortement la capacité de généralisation du modèle sur divers axes : fluidité du mouvement, fidélité sémantique et cohérence visuelle.

Esthétique cinématographique contrôlable

0:00
/0:19

Wan 2.2 bénéficie d’un corpus enrichi d’annotations esthétiques fines (lumière, couleur, composition). Cela permet :

  • Un contrôle précis du style visuel.
  • Une production de vidéos au rendu cinématographique personnalisable.
  • Une réduction significative des artefacts et mouvements de caméra irréalistes.

Compression vidéo haute efficacité (VAE avancé)

Le modèle dense TI2V-5B utilise un VAE compressant jusqu’à 16×16×4, ce qui permet :

  • Génération de vidéos 720p à 24 images par seconde.
  • Fonctionnement fluide sur une carte graphique grand public (comme RTX 3060 ou 4090).
  • Temps de génération rapide (moins de 10 minutes pour 5 secondes de vidéo).

Cette efficacité en fait l’un des modèles vidéo IA 720p@24fps les plus rapides disponibles à ce jour.


Détail des modèles Wan 2.2 disponibles

Modèle Type d'entrée Paramètres Architecture Résolution GPU requis Tâches prises en charge
TI2V‑5B Texte + Image 5B Dense + VAE 720p @ 24fps 8–11 Go VRAM Text-to-Video, Image-to-Video
T2V‑A14B Texte 27B (MoE) MoE (2x14B) 480p / 720p 14–30 Go Text-to-Video
I2V‑A14B Image 27B (MoE) MoE (2x14B) 480p / 720p 14–30 Go Image-to-Video

Les modèles A14B sont conçus pour les rendus haut de gamme avec une qualité visuelle supérieure. Le modèle TI2V-5B est destiné aux utilisateurs avec un GPU plus modeste, sans compromis majeur sur la qualité.


Benchmarks et qualité de sortie

Wan 2.2 surpasse les modèles commerciaux et open source dans la majorité des catégories d’évaluation :

  • Sur le benchmark interne Wan‑Bench 2.0, les modèles A14B obtiennent des scores supérieurs en cohérence, qualité des mouvements, respect du prompt et esthétique visuelle.
  • La génération est plus stable, avec moins de mouvements de caméra irréalistes et une meilleure gestion des arrière-plans et effets de lumière.

Intégration dans ComfyUI

Wan 2.2 est pris en charge nativement dans ComfyUI dès le jour de sa sortie, ce qui facilite grandement sa mise en œuvre :

  • Chargement automatique des modèles .safetensors.
  • Templates fournis :
    • Wan2.2 Text to Video
    • Wan2.2 Image to Video
    • Wan2.2 5B TI2V All-in-One
  • Support de l'offloading, quantization, rendu par lot, et exécution optimisée sur CUDA.

Comparaison avec d'autres modèles IA vidéo

Wan 2.2 se distingue par sa licence libre, son accessibilité matérielle et sa qualité proche des meilleurs modèles fermés du marché.

Voici le tableau de comparaison mis à jour en fonction des scores extraits du graphique (benchmark Wan-Bench 2.0) :


Comparaison des principaux modèles vidéo IA – Scores Wan-Bench 2.0

Critère Seedance 1.0 Hailuo 02 KLING 2.0 Sora Wan2.1-T2V-14B Wan2.2-T2V-A14B
Aesthetic Quality 84.3 77.2 80.1 82.3 75.9 85.3
Dynamic Degree 38.6 38.5 48.7 17.6 50.5 52.0
Text Rendering 61.1 47.0 19.9 50.4 65.1 66.5
Camera Control 38.0 39.4 37.1 20.8 27.9 39.6
Video Fidelity 81.8 63.6 64.8 70.9 63.6 73.7
Object Accuracy 73.8 80.1 75.4 69.0 75.4 78.2

Analyse des résultats

  • Wan2.2-T2V-A14B est premier dans 5 des 6 catégories, notamment en :
    • Qualité esthétique
    • Rendu du texte
    • Fidélité vidéo
    • Précision des objets
  • Il surpasse Wan2.1-T2V-14B sur tous les critères, confirmant une amélioration globale.
  • Par rapport aux modèles fermés comme Sora, il reste très compétitif, surtout en cohérence visuelle, ce qui est notable pour un modèle open source.

Ressources officielles


Conclusion

Wan 2.2 est aujourd’hui le modèle vidéo IA open source le plus avancé, combinant qualité de rendu, efficacité de génération et compatibilité matérielle. Que ce soit pour la recherche, l’animation, la création de contenu ou l’expérimentation artistique, il offre une solution stable, rapide et libre. Son architecture MoE, sa base de données étendue et son VAE ultra-efficace le positionnent comme un modèle de référence pour l'année 2025.