Gemini 2.5 Flash peut désormais piloter votre bureau et votre navigateur à votre place — Google vient d’activer Computer Use et vous ne touchez plus à rien

28 juin 2026

dans Actualités, IA

Gemini 2.5 Flash peut désormais piloter votre bureau et votre navigateur à votre place — Google vient d’activer Computer Use et vous ne touchez plus à rien

Gemini 3.5 Flash franchit un cap, l’IA de Google ne se limite plus aux réponses, elle agit sur l’écran.

Avec Computer Use, le modèle voit une interface, clique, saisit du texte et enchaîne des étapes comme un utilisateur. Google promet des garde-fous, alors que la course aux agents autonomes s’accélère face à OpenAI et Anthropic.

Google I/O 2026 place Gemini 3.5 Flash au volant

Google a présenté Gemini 3.5 Flash à la Google I/O 2026 comme son modèle le plus rapide pour des tâches dites agentiques. L’ajout natif de Computer Use change la nature du produit, il ne s’agit plus seulement de générer du texte, mais de manipuler une interface.

Concrètement, le modèle peut voir l’écran, interpréter des éléments d’UI, puis cliquer ou taper dans des champs. Google met en avant une intégration directe dans le modèle, là où cette capacité existait déjà dans un modèle distinct de la gamme 2.5, selon les informations relayées par The Decoder.

Pour les développeurs, l’intérêt tient à la continuité, Computer Use peut se combiner avec des function calls, la recherche et des services comme Maps. Un agent peut repérer une information sur une page, basculer vers une application, puis finaliser une action, sans demander à l’utilisateur de “faire le clic”.

Le positionnement est clair, Flash vise la réactivité et le débit, là où des modèles plus lourds ciblent la profondeur. Google cherche à rapprocher l’IA d’un assistant qui exécute des procédures, pas seulement d’un moteur de réponses.

A lire aussi : Tesla prépare le Megapod, un module clé en main pour data centers d'IA et ses batteries

Un agent qui clique, scrolle et remplit des formulaires

L’expression Computer Use recouvre une capacité simple à décrire, mais exigeante à réussir, l’IA doit comprendre un écran comme un humain. Elle identifie des boutons, des menus, des onglets, puis enchaîne des actions, scroller, ouvrir une fenêtre, copier-coller, valider.

Dans un navigateur, cela ouvre des scénarios de recherche guidée, l’agent peut comparer des pages, extraire des éléments, puis saisir une synthèse dans un document. Dans un environnement bureautique, il peut créer un fichier, renseigner un tableau, ou automatiser une routine, à condition que l’interface soit suffisamment stable.

Les usages mis en avant côté développeurs tournent autour du test logiciel et de l’automatisation de tâches répétitives. Un agent peut rejouer un parcours utilisateur, détecter un champ manquant, puis produire un rapport, sans instrumentation lourde, puisqu’il “voit” ce que voit un testeur.

La limite reste la même que pour tout agent sur interface, le moindre changement d’UI, un pop-up, une mise en page différente, peut provoquer une erreur. Google présente cette intégration comme un progrès de maturité, mais l’exécution fiable, à grande échelle, dépend encore de la qualité des garde-fous et de la robustesse des modèles.

OSWorld, des scores qui rapprochent Google d’OpenAI et Anthropic

Google s’appuie sur des mesures pour situer son avance. Sur le benchmark OSWorld, orienté tâches sur système et environnement de bureau, Gemini 3.5 Flash atteindrait 78,4. C’est une progression nette par rapport à Gemini 3 Flash à 65,1, signe que la capacité agentique progresse vite.

La comparaison est serrée. GPT-5.5 serait légèrement devant à 78,7, tandis qu’Anthropic Opus 4.8 mènerait à 83,4. Dans le même tableau, Sonnet 4.6 affiche 78,4, et Gemini 3.1 Pro se place à 76,2. Google n’est pas seul, la bataille se joue à quelques points.

A lire aussi : Qualcomm rachète Modular pour 3,9 milliards $ et vise le verrou logiciel CUDA de Nvidia

Ces chiffres ne disent pas tout. Un score OSWorld mesure une capacité à accomplir des tâches dans un cadre défini, pas la stabilité face aux interfaces réelles, aux latences réseau, ou aux demandes ambiguës. Mais ils donnent un signal, Google a réduit l’écart sur un terrain où Anthropic s’était imposé tôt.

Modèle	Score OSWorld	Lecture rapide
Gemini 3.5 Flash	78,4	Computer Use intégré, agent rapide
GPT-5.5	78,7	Très proche, léger avantage
Anthropic Opus 4.8	83,4	Leader du tableau
Sonnet 4.6	78,4	À égalité avec Flash
Gemini 3 Flash	65,1	Génération précédente, écart marqué

Garde-fous, l’ombre de l’injection de prompt sur l’écran

Donner à une IA le contrôle d’un navigateur et d’applications introduit un risque immédiat, l’interface devient une surface d’attaque. Une page web peut afficher des instructions piégées, une tentative d’injection de prompt destinée à détourner l’agent, par exemple pour lui faire exfiltrer des données ou contourner des règles.

Google indique proposer des safeguards pour limiter les usages abusifs. Dans la pratique, cela passe généralement par des contrôles d’actions sensibles, des confirmations, des listes d’autorisations, et une segmentation des capacités, l’agent peut lire et naviguer, mais pas forcément valider un paiement ou accéder à des secrets sans étape explicite.

Le sujet dépasse la sécurité pure. Un agent qui clique peut aussi commettre des erreurs coûteuses, supprimer un fichier, envoyer un message, modifier un paramètre. Les déploiements sérieux exigent des journaux d’actions, des retours arrière, et une politique de permissions proche de celle d’un compte utilisateur.

Ce point explique le choix de Google, intégrer Computer Use dans un modèle central permet de standardiser les garde-fous au même endroit. Mais cela signifie aussi que la confiance se déplace, l’utilisateur ne juge plus seulement la qualité des réponses, il doit évaluer la fiabilité d’un agent qui agit dans son environnement.

A lire aussi : Les serveurs Arm franchissent un cap historique : Intel et AMD font face à une menace de plus en plus sérieuse

La course aux agents IA oppose Google, OpenAI et Anthropic

Le timing n’est pas neutre. Anthropic a marqué les esprits avec Claude Computer Use, démonstration d’un agent capable d’interagir avec un bureau complet. OpenAI, de son côté, pousse des agents autonomes et des outils capables d’enchaîner des tâches, avec une logique similaire, réduire l’écart entre intention et exécution.

La stratégie de Google se distingue, plutôt que multiplier les modèles spécialisés, l’entreprise intègre progressivement ces capacités dans Gemini. Pour les équipes produit, cela simplifie l’empilement, un seul modèle, des outils connectés, et une interface cohérente côté API.

Pour les entreprises, l’intérêt est concret, un agent unique peut couvrir web, mobile et desktop, en combinant vision d’écran et appels d’outils. Les cas d’usage cités vont de l’automatisation de support interne à la génération de rapports, en passant par des tests de non-régression sur des applications métier.

L’évolution reste incertaine sur un point, la capacité à fonctionner sans supervision dans des environnements imprévisibles. Mais l’intégration de Computer Use dans Gemini 3.5 Flash montre que Google parie sur une IA qui fait, pas seulement une IA qui décrit.

Sources

Tags

Saïd LARIBI

Responsable du site Technologie & science magazine electronique, il suit la tech au quotidien avec une obsession : comprendre ce qu’il y a derrière les annonces, des composants jusqu’aux usages. Passionné par l’IA (et ses impacts très concrets), il aime vulgariser sans simplifier à l’excès, en gardant un œil critique sur le marketing. À 32 ans, jeune papa, il jongle entre tests, veille et décryptages pour aider les lecteurs à voir plus clair dans le bruit

Laisser un commentaire Annuler la réponse