Google lance Gemini Omni, son IA qui génère des vidéos à partir de texte et d’images

20 mai 2026

dans Actualités, IA

Google lance Gemini Omni, son IA qui génère des vidéos à partir de texte et d'images

Google a présenté Gemini Omni à sa conférence Google I/O, avec une promesse simple à comprendre, et très ambitieuse, créer une vidéo à partir de presque n’importe quelle entrée.

Texte, photos, extraits vidéo, audio, tout peut servir de matière première. La première déclinaison, Omni Flash, vise un usage grand public, directement dans les produits maison. Le point marquant, ce n’est pas juste “coller” des éléments les uns à la suite des autres. Google explique que le modèle “raisonne” à travers les médias pour produire un résultat cohérent, avec une continuité de scène et des détails plus crédibles. La génération démarre avec des clips courts, jusqu’à 10 secondes, mais l’objectif affiché est d’étendre ces limites dans le temps.

Google déploie Omni Flash dans Gemini, Flow et YouTube Shorts

La première porte d’entrée, c’est l’écosystème Google. Gemini Omni Flash doit être disponible dans l’application Gemini, dans Google Flow et dans YouTube Shorts. Le choix n’a rien d’anodin, Google vise à la fois les utilisateurs “messagerie et assistant”, les créateurs qui bricolent des séquences dans Flow, et la mécanique virale de Shorts, où 10 secondes suffisent pour faire un format.

Flow, présenté comme un studio créatif dopé à l’IA, a déjà été étendu à plus de 140 pays. Google ajoute aussi une dimension mobile, avec une app Flow sur Android en bêta, iOS annoncé plus tard, et Flow Music déjà sur iOS, Android prévu ensuite. Concrètement, l’idée est de pouvoir tourner, générer, retoucher et publier depuis un téléphone, sans repasser par une suite de montage classique.

A lire aussi : Concevoir une attraction Disney prenait des années : Adobe Firefly Foundry vient de transformer ce processus grâce à l'IA

Dans les démonstrations décrites par Google, Omni Flash peut partir d’un mélange d’entrées. Tu peux fournir une photo, ajouter une ambiance sonore, donner une instruction textuelle, et demander une séquence qui respecte l’ensemble. Pour les créateurs, ça ouvre des usages très concrets, fabriquer un plan d’illustration pour une intro, prototyper une pub courte, ou décliner un même concept en plusieurs variantes sans tout refaire à la main.

Gemini Omni combine raisonnement multimodal et rendu vidéo

Google insiste sur la différence entre un simple modèle vidéo et un modèle “multimodal” qui comprend le contexte. L’entreprise explique que Gemini Omni s’appuie sur les capacités de raisonnement de Gemini, additionnées aux capacités de rendu de ses modèles médias. En clair, l’IA ne se limite pas à générer de jolies images en mouvement, elle doit aussi maintenir une logique de scène, de style et de contenu, même quand tu mélanges texte, image et son.

Dans ce cadre, Google parle de “world models”, une évolution où l’IA passe de la prédiction de texte à une forme de simulation de la réalité. La promesse est large, compréhension de la physique, du contexte culturel, de l’histoire, de la science. Dit autrement, l’objectif est d’éviter les incohérences qui sautent aux yeux, et de produire des vidéos qui racontent quelque chose, pas juste une animation qui bouge.

A lire aussi : Gemini 2.5 Flash peut désormais piloter votre bureau et votre navigateur à votre place : Google vient d'activer Computer Use et vous ne touchez plus à rien

Il y a aussi une comparaison interne, Omni est présenté comme l’équivalent vidéo de Nano Banana, le modèle d’images de Google. Et Google avance un chiffre qui donne l’échelle, plus de 50 milliards d’images auraient déjà été générées via Nano Banana depuis son lancement l’an dernier. Si la dynamique se répète côté vidéo, ça peut vite saturer les plateformes de contenus synthétiques, et c’est là que la question de la qualité, du tri et de la traçabilité devient centrale.

Avatars, montage en langage naturel et garde-fous anti-deepfakes

Omni ne se limite pas à générer, il doit aussi permettre d’éditer. Google met en avant un montage “conversationnel”, tu modifies une vidéo avec des commandes en langage naturel, étape par étape, et chaque modification s’appuie sur la précédente pour garder une scène cohérente. Sur le papier, c’est le genre de fonction qui peut faire gagner du temps sur des retouches simples, changer une ambiance, ajuster une action, harmoniser un style, sans ouvrir une timeline complexe.

Autre point sensible, les avatars numériques. Google prévoit que les utilisateurs puissent créer des vidéos avec leur propre avatar, un usage popularisé ailleurs par des outils de type “cameos”. Mais Google annonce un onboarding dédié pour limiter les détournements, avec un enregistrement où la personne doit se filmer en prononçant une série de chiffres. L’avatar est ensuite stocké pour des usages futurs, ce qui pose aussi une question de gestion et de sécurité de cette donnée biométrique.

A lire aussi : Onsemi met 7 milliards sur la table pour racheter Synaptics et devient le premier fabricant à unifier IA embarquée et électronique de puissance

Et là, petite nuance, ces garde-fous réduisent un risque, mais ils ne règlent pas tout. Même avec une vérification au départ, la capacité à insérer un visage, une voix, un contexte sonore dans une vidéo de 10 secondes suffit à produire des contenus trompeurs très partageables. Google met la sécurité “du développement au déploiement” au centre de son discours, mais la bataille se jouera surtout dans l’usage réel, la modération sur les plateformes, et la vitesse à laquelle les abus seront détectés.

À retenir

Gemini Omni Flash génère des vidéos à partir de texte, images, audio et extraits vidéo.
Les clips annoncés montent jusqu’à 10 secondes, avec une extension prévue.
Google intègre Omni dans Gemini, Flow et YouTube Shorts, avec une stratégie mobile.
Les avatars personnels exigent une vérification dédiée pour réduire les deepfakes.

Sources

Tags

Saïd LARIBI

Responsable du site Technologie & science magazine electronique, il suit la tech au quotidien avec une obsession : comprendre ce qu’il y a derrière les annonces, des composants jusqu’aux usages. Passionné par l’IA (et ses impacts très concrets), il aime vulgariser sans simplifier à l’excès, en gardant un œil critique sur le marketing. À 32 ans, jeune papa, il jongle entre tests, veille et décryptages pour aider les lecteurs à voir plus clair dans le bruit

Laisser un commentaire Annuler la réponse