Introduction
Les annonces sur les IA capables de contrôler un ordinateur circulent abondamment. Entre promesses spectaculaires et réalité technique, nous avons voulu vérifier concrètement : est-il possible, aujourd’hui, de configurer une IA pour qu’elle pilote réellement un PC, à partir de solutions accessibles au public ?
Ce test relate, étape par étape, l’expérience réelle menée pour installer UI-TARS, une technologie développée par une grande entreprise du secteur technologique.
Premier objectif : installer UI-TARS sur un ordinateur Windows
Après avoir analysé la configuration du poste (Windows 11 Pro, processeur Ryzen 7, 32 Go de RAM, carte graphique Radeon RX 5600 XT), la décision est prise d’installer UI-TARS en fonctionnement CPU, n’ayant pas de carte graphique NVIDIA compatible CUDA.
Première étape, l’installation des outils de base : Python 3.10 et Git sont présents. Le clonage du dépôt GitHub de UI-TARS-desktop s’effectue sans souci, la création de l’environnement virtuel Python aussi. Mais rapidement, une première surprise apparaît : aucun fichier requirements.txt classique à la racine. L’installation par pip install . échoue car le projet n’est pas prêt à être installé directement.
Découverte de la véritable structure de UI-TARS-desktop
Après vérification du contenu du projet, il devient clair que UI-TARS-desktop est une application construite sur Node.js et Electron, non pas sur Python. Le projet fournit du code source, mais pas de binaire prêt à utiliser. Aucun script npm run dev n’est disponible, contrairement à ce que le README laissait supposer.
Il faudrait donc reconstruire soi-même toute l’application à partir de composants React et Electron, ce qui est hors de portée pour une simple utilisation utilisateur.
Tentative de mise en place du moteur IA localement
Parallèlement, le moteur IA est téléchargé (à travers le dépôt UI-TARS) mais là encore, il ne contient aucun serveur prêt à être lancé pour dialoguer directement avec l’interface. ByteDance propose uniquement des modèles pré-entraînés (2B, 7B, 72B), sans serveur accessible prêt à l’emploi.
La seule solution viable rapidement est alors d’utiliser LM Studio pour héberger localement le modèle UI-TARS-7B-DPO.
Après installation, LM Studio permet bien de charger le modèle UI-TARS-7B-DPO en local. Le serveur d’API est accessible à l’adresse http://127.0.0.1:1234.
Tentative de connexion et premiers tests
Un script Python est développé pour envoyer une requête texte à l’IA et récupérer une réponse. Premier problème : l’IA répond en chinois, en format action/capture d’écran, car UI-TARS est conçu pour recevoir une image de l’écran et générer des actions correspondantes.
Pour tenter de rendre l’agent fonctionnel, une deuxième étape est mise en place : capturer l’écran automatiquement toutes les secondes (à l’aide de mss) et envoyer à l’IA à la fois l’image et le texte de la commande.
Cependant, l’appel à LM Studio échoue sur ce point : il ne gère pas aujourd’hui les requêtes multimodales (texte + image) pour UI-TARS. L’API locale renvoie un JSON sans champ choices, preuve que le modèle n’a pas traité la demande.
Constats et limitations techniques
Après plusieurs essais, il faut se rendre à l’évidence :
- LM Studio ne supporte pas encore pleinement les modèles multimodaux texte + image.
- UI-TARS est conçu pour fonctionner dans des environnements spécifiques (serveurs multi-GPU, serveurs multimodaux).
- L’installation « grand public » n’est pas réaliste à ce jour sans développer une infrastructure sur mesure.
Pour contourner, il faudrait soit utiliser un autre modèle purement textuel (comme Llama 3 Instruct), soit créer un serveur intermédiaire de gestion des actions.
Conclusion
Malgré les annonces et les démonstrations prometteuses, installer aujourd’hui une IA capable de piloter entièrement un ordinateur en local n’est pas encore à la portée du grand public.
Les modèles sont disponibles, les briques technologiques existent, mais l’assemblage n’est pas trivial : il faut des compétences avancées en Python, Electron, gestion des API, serveurs multimodaux, et automatisation de commandes Windows.
Le projet, même en persévérant, devient rapidement disproportionné par rapport à l’objectif initial qui était simplement de tester une IA capable de cliquer, écrire, ouvrir ou fermer des programmes de façon fluide.
Si vous souhaitez obtenir de l’aide pour suivre l’évolution de ces outils, être prévenu lorsqu’une solution accessible sera disponible ou explorer des alternatives plus simples, n’hésitez pas à nous contacter.





0 commentaires