Le groupe chinois ByteDance, connu pour être la maison mère de TikTok, poursuit son engagement dans l’intelligence artificielle open source avec le lancement de TARS, un agent multimodal capable d’interagir avec des interfaces graphiques et d’automatiser des tâches complexes sur ordinateur.
Disponible sous le nom d’Agent TARS, il peut déjà être utilisé sur macOS, tandis qu’une version Windows est en préparation. Le projet est en libre accès sur GitHub, et documenté sur ui-tarsai.com.
Inspiré d’approches similaires chez OpenAI (Operator) ou Anthropic (Computer Use), Agent TARS repose sur une compréhension visuelle des interfaces. Il est capable de naviguer sur des sites web, de remplir des formulaires, d’interagir avec des fichiers et d’exécuter des commandes en ligne de commande. Il peut également planifier et décomposer des missions en étapes, générer des rapports HTML de ses sessions, et fonctionner à partir d’entrées multiples (texte, images, code).
L’intelligence de l’agent repose sur un modèle vision-langage entraîné sur environ 50 milliards de tokens, proposé en deux tailles : 7 milliards et 72 milliards de paramètres. Selon ByteDance, Agent TARS obtient des résultats supérieurs à GPT-4o, Claude ou Gemini sur plus de dix benchmarks liés à l’interprétation graphique et à l’exécution autonome.
Pour fonctionner, l’agent requiert macOS, un navigateur Chrome installé, ainsi qu’une configuration préalable incluant des clés API pour le moteur IA choisi (Claude est recommandé). L’outil s’appuie sur la base technique de UI-TARS-1.5, capable d’analyser l’écran en temps réel pour générer des actions, comme le déplacement de la souris ou la saisie clavier. Il se distingue par sa capacité à s’intégrer de manière fluide dans les systèmes utilisateurs tout en conservant une structure open source accessible à tous.
Côté usages, TARS se montre polyvalent. Il peut être utilisé pour l’analyse de données financières, la synthèse de contenus issus de plateformes en ligne, la rédaction de documentation automatisée, le signalement de bugs sur des dépôts de code, ou encore la planification de voyages. Il se positionne comme un véritable assistant IA capable de prendre en charge des tâches numériques répétitives ou chronophages.
Dévoilé début 2025, Agent TARS fait partie des efforts de ByteDance pour renforcer son portefeuille de projets IA open source. Il vient compléter d’autres initiatives comme DeerFlow, un cadre multi-agent modulaire. Dans un paysage concurrentiel où OpenAI, Google ou Anthropic développent eux aussi des agents autonomes, ByteDance entend affirmer sa place, notamment sur le segment des interfaces utilisateurs. Plusieurs observateurs saluent d’ailleurs la qualité technique du projet, qui représente également un signal fort quant à la montée en puissance de l’écosystème IA chinois.
Pour en savoir plus ou tester l’outil, rendez-vous sur le site officiel de UI-TARS ou directement sur la page GitHub.
