Google a présenté Gemini Omni à sa conférence Google I/O, avec une promesse simple à comprendre, et très ambitieuse, créer une vidéo à partir de presque n’importe quelle entrée.
Texte, photos, extraits vidéo, audio, tout peut servir de matière première. La première déclinaison, Omni Flash, vise un usage grand public, directement dans les produits maison. Le point marquant, ce n’est pas juste “coller” des éléments les uns à la suite des autres. Google explique que le modèle “raisonne” à travers les médias pour produire un résultat cohérent, avec une continuité de scène et des détails plus crédibles. La génération démarre avec des clips courts, jusqu’à 10 secondes, mais l’objectif affiché est d’étendre ces limites dans le temps.
Google déploie Omni Flash dans Gemini, Flow et YouTube Shorts
La première porte d’entrée, c’est l’écosystème Google. Gemini Omni Flash doit être disponible dans l’application Gemini, dans Google Flow et dans YouTube Shorts. Le choix n’a rien d’anodin, Google vise à la fois les utilisateurs “messagerie et assistant”, les créateurs qui bricolent des séquences dans Flow, et la mécanique virale de Shorts, où 10 secondes suffisent pour faire un format.
Flow, présenté comme un studio créatif dopé à l’IA, a déjà été étendu à plus de 140 pays. Google ajoute aussi une dimension mobile, avec une app Flow sur Android en bêta, iOS annoncé plus tard, et Flow Music déjà sur iOS, Android prévu ensuite. Concrètement, l’idée est de pouvoir tourner, générer, retoucher et publier depuis un téléphone, sans repasser par une suite de montage classique.
Dans les démonstrations décrites par Google, Omni Flash peut partir d’un mélange d’entrées. Tu peux fournir une photo, ajouter une ambiance sonore, donner une instruction textuelle, et demander une séquence qui respecte l’ensemble. Pour les créateurs, ça ouvre des usages très concrets, fabriquer un plan d’illustration pour une intro, prototyper une pub courte, ou décliner un même concept en plusieurs variantes sans tout refaire à la main.
Gemini Omni combine raisonnement multimodal et rendu vidéo
Google insiste sur la différence entre un simple modèle vidéo et un modèle “multimodal” qui comprend le contexte. L’entreprise explique que Gemini Omni s’appuie sur les capacités de raisonnement de Gemini, additionnées aux capacités de rendu de ses modèles médias. En clair, l’IA ne se limite pas à générer de jolies images en mouvement, elle doit aussi maintenir une logique de scène, de style et de contenu, même quand tu mélanges texte, image et son.
Dans ce cadre, Google parle de “world models”, une évolution où l’IA passe de la prédiction de texte à une forme de simulation de la réalité. La promesse est large, compréhension de la physique, du contexte culturel, de l’histoire, de la science. Dit autrement, l’objectif est d’éviter les incohérences qui sautent aux yeux, et de produire des vidéos qui racontent quelque chose, pas juste une animation qui bouge.
Il y a aussi une comparaison interne, Omni est présenté comme l’équivalent vidéo de Nano Banana, le modèle d’images de Google. Et Google avance un chiffre qui donne l’échelle, plus de 50 milliards d’images auraient déjà été générées via Nano Banana depuis son lancement l’an dernier. Si la dynamique se répète côté vidéo, ça peut vite saturer les plateformes de contenus synthétiques, et c’est là que la question de la qualité, du tri et de la traçabilité devient centrale.
Avatars, montage en langage naturel et garde-fous anti-deepfakes
Omni ne se limite pas à générer, il doit aussi permettre d’éditer. Google met en avant un montage “conversationnel”, tu modifies une vidéo avec des commandes en langage naturel, étape par étape, et chaque modification s’appuie sur la précédente pour garder une scène cohérente. Sur le papier, c’est le genre de fonction qui peut faire gagner du temps sur des retouches simples, changer une ambiance, ajuster une action, harmoniser un style, sans ouvrir une timeline complexe.
Autre point sensible, les avatars numériques. Google prévoit que les utilisateurs puissent créer des vidéos avec leur propre avatar, un usage popularisé ailleurs par des outils de type “cameos”. Mais Google annonce un onboarding dédié pour limiter les détournements, avec un enregistrement où la personne doit se filmer en prononçant une série de chiffres. L’avatar est ensuite stocké pour des usages futurs, ce qui pose aussi une question de gestion et de sécurité de cette donnée biométrique.
Et là, petite nuance, ces garde-fous réduisent un risque, mais ils ne règlent pas tout. Même avec une vérification au départ, la capacité à insérer un visage, une voix, un contexte sonore dans une vidéo de 10 secondes suffit à produire des contenus trompeurs très partageables. Google met la sécurité “du développement au déploiement” au centre de son discours, mais la bataille se jouera surtout dans l’usage réel, la modération sur les plateformes, et la vitesse à laquelle les abus seront détectés.
À retenir
- Gemini Omni Flash génère des vidéos à partir de texte, images, audio et extraits vidéo.
- Les clips annoncés montent jusqu’à 10 secondes, avec une extension prévue.
- Google intègre Omni dans Gemini, Flow et YouTube Shorts, avec une stratégie mobile.
- Les avatars personnels exigent une vérification dédiée pour réduire les deepfakes.
