Google dévoile Gemini 2.5 Computer Use, une IA capable de naviguer sur le web de manière autonome

À peine un jour après l événement DevDay de son concurrent OpenAI, Google annonce une avancée dans le domaine de l IA.

Le groupe présente Gemini 2.5 Computer Use, un modèle qui permet à des agents d IA d’interagir directement avec les interfaces des pages web, comme le ferait un utilisateur humain. Ils peuvent cliquer sur des éléments, saisir du texte et faire défiler les pages.

Cette approche repose sur les capacités de compréhension et de raisonnement visuels associées au module Gemini 2.5 Pro.

Contexte et objectifs

Le système s’appuie sur une boucle d’actions : après une instruction, l’agent analyse à chaque étape une capture d’écran, le contexte de navigation et l’historique des actions pour déterminer la prochaine étape jusqu’à l’accomplissement de la tâche.

Sécurité et limites

Pour les requêtes jugées sensibles, comme un achat en ligne, le système exige une confirmation explicite de l’utilisateur avant de poursuivre.

Disponibilité

Pour l’instant, Gemini 2.5 Computer Use est proposé en préversion et réservé aux développeurs, avec un accès restreint au navigateur web.

By