Peut-on aujourd’hui installer une IA pour contrôler entièrement son ordinateur ? Récit d’un test réel avec UI-TARS.

Illustration d'un homme pointant vers un écran d'ordinateur affichant une interaction avec une intelligence artificielle

Rédacteur : LaRedac



28 avril 2025

Introduction

Les annonces sur les IA capables de contrôler un ordinateur circulent abondamment. Entre promesses spectaculaires et réalité technique, nous avons voulu vérifier concrètement : est-il possible, aujourd’hui, de configurer une IA pour qu’elle pilote réellement un PC, à partir de solutions accessibles au public ?

Ce test relate, étape par étape, l’expérience réelle menée pour installer UI-TARS, une technologie développée par une grande entreprise du secteur technologique.

Premier objectif : installer UI-TARS sur un ordinateur Windows

Après avoir analysé la configuration du poste (Windows 11 Pro, processeur Ryzen 7, 32 Go de RAM, carte graphique Radeon RX 5600 XT), la décision est prise d’installer UI-TARS en fonctionnement CPU, n’ayant pas de carte graphique NVIDIA compatible CUDA.

Première étape, l’installation des outils de base : Python 3.10 et Git sont présents. Le clonage du dépôt GitHub de UI-TARS-desktop s’effectue sans souci, la création de l’environnement virtuel Python aussi. Mais rapidement, une première surprise apparaît : aucun fichier requirements.txt classique à la racine. L’installation par pip install . échoue car le projet n’est pas prêt à être installé directement.

Découverte de la véritable structure de UI-TARS-desktop

Après vérification du contenu du projet, il devient clair que UI-TARS-desktop est une application construite sur Node.js et Electron, non pas sur Python. Le projet fournit du code source, mais pas de binaire prêt à utiliser. Aucun script npm run dev n’est disponible, contrairement à ce que le README laissait supposer.

Il faudrait donc reconstruire soi-même toute l’application à partir de composants React et Electron, ce qui est hors de portée pour une simple utilisation utilisateur.

Tentative de mise en place du moteur IA localement

Parallèlement, le moteur IA est téléchargé (à travers le dépôt UI-TARS) mais là encore, il ne contient aucun serveur prêt à être lancé pour dialoguer directement avec l’interface. ByteDance propose uniquement des modèles pré-entraînés (2B, 7B, 72B), sans serveur accessible prêt à l’emploi.

La seule solution viable rapidement est alors d’utiliser LM Studio pour héberger localement le modèle UI-TARS-7B-DPO.

Après installation, LM Studio permet bien de charger le modèle UI-TARS-7B-DPO en local. Le serveur d’API est accessible à l’adresse http://127.0.0.1:1234.

Tentative de connexion et premiers tests

Un script Python est développé pour envoyer une requête texte à l’IA et récupérer une réponse. Premier problème : l’IA répond en chinois, en format action/capture d’écran, car UI-TARS est conçu pour recevoir une image de l’écran et générer des actions correspondantes.

Pour tenter de rendre l’agent fonctionnel, une deuxième étape est mise en place : capturer l’écran automatiquement toutes les secondes (à l’aide de mss) et envoyer à l’IA à la fois l’image et le texte de la commande.

Cependant, l’appel à LM Studio échoue sur ce point : il ne gère pas aujourd’hui les requêtes multimodales (texte + image) pour UI-TARS. L’API locale renvoie un JSON sans champ choices, preuve que le modèle n’a pas traité la demande.

Constats et limitations techniques

Après plusieurs essais, il faut se rendre à l’évidence :

LM Studio ne supporte pas encore pleinement les modèles multimodaux texte + image.
UI-TARS est conçu pour fonctionner dans des environnements spécifiques (serveurs multi-GPU, serveurs multimodaux).
L’installation « grand public » n’est pas réaliste à ce jour sans développer une infrastructure sur mesure.

Pour contourner, il faudrait soit utiliser un autre modèle purement textuel (comme Llama 3 Instruct), soit créer un serveur intermédiaire de gestion des actions.

Conclusion

Malgré les annonces et les démonstrations prometteuses, installer aujourd’hui une IA capable de piloter entièrement un ordinateur en local n’est pas encore à la portée du grand public.

Les modèles sont disponibles, les briques technologiques existent, mais l’assemblage n’est pas trivial : il faut des compétences avancées en Python, Electron, gestion des API, serveurs multimodaux, et automatisation de commandes Windows.

Le projet, même en persévérant, devient rapidement disproportionné par rapport à l’objectif initial qui était simplement de tester une IA capable de cliquer, écrire, ouvrir ou fermer des programmes de façon fluide.

Si vous souhaitez obtenir de l’aide pour suivre l’évolution de ces outils, être prévenu lorsqu’une solution accessible sera disponible ou explorer des alternatives plus simples, n’hésitez pas à nous contacter.

← Article précédent Article suivant →

0 commentaires

Soumettre un commentaire Annuler la réponse

Voir aussi…

Ordinateur ne s’allume pas quand le chargeur est branché

Fév 15, 2026

Un ordinateur en réparation présente un symptôme déroutant. Quand le chargeur est branché, il ne démarre plus. Le...

Clavier alphanumérique Mac : pourquoi Verr. Maj. ne donne pas les chiffres

Fév 14, 2026

Sur Mac, beaucoup d’utilisateurs pensent qu’un simple réglage permet d’avoir un vrai clavier alphanumérique où Verr....

Augmenter une impulsion à 1 seconde dans home assistant

Fév 13, 2026

Hypothèses Vous pilotez un actionneur depuis Home Assistant et vous souhaitez que la commande ressemble à une...

« Entrées précédentes

Merci, votre message a bien été envoyé

Nous avons bien reçu votre demande. Nous revenons vers vous au plus vite avec une réponse claire et des premières orientations.

Si votre demande est urgente

contactez-nous par message sur WhatsApp.



Ouvrir WhatsApp

Aperçu de la confidentialité

Notre site utilise des cookies pour améliorer votre expérience pendant votre visite. Parmi ceux-ci, les cookies classés comme nécessaires sont stockés sur votre navigateur car ils sont essentiels au fonctionnement des fonctionnalités de base du site. Nous utilisons également des cookies tiers qui nous aident à analyser et à comprendre comment vous utilisez ce site. Ces cookies ne seront stockés dans votre navigateur qu'avec votre consentement. Vous avez également la possibilité de désactiver ces cookies. Mais la désactivation de certains de ces cookies peut affecter votre expérience de navigation.

Nécessaire

Toujours activé

Les cookies nécessaires sont absolument essentiels au bon fonctionnement du site Web. Ces cookies assurent les fonctionnalités de base et les fonctions de sécurité du site Web, de manière anonyme.

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Fonctionnel

Performance

Analytique

Autres