Voici une news concernant l'intelligence artificielle, qui je pense devrait vous plaire si vous vous intéressez à la robotique. Alibaba qu'on ne présente plus, vient de sortir sa Qwen-Robot Suite, 3 modèles IA signés Tongyi Lab (les gens derrière Qwen ) imaginé pour donner un corps à l'IA. Parce qu'une machine capable de décrire votre cuisine au millimètre près mais complétement infoutue d'y attraper une tasse, voilà un peu ce qu'on a en robotique en ce moment...
Car "comprendre" le monde, ça les modèles savent faire. Mais agir dedans, c'est une autre paire de manches. Cette Qwen-Robot Suite découpe donc ça en trois briques, RobotNav pour se déplacer, RobotManip pour saisir des objets, et RobotWorld qui joue les boules de cristal en prédisant ce qui va se passer avant même que le robot ne bouge. Et si vous voulez expérimenter tout ça tout de suite, sans mettre les mains dans le cambouis, y'a même une démo Chat2Robot , où vous tapez une instruction dans votre navigateur et un bras robotique l'exécute en direct !
Mais le plus parlant dans leurs démo, c'est ce chien-robot Unitree Go2 ( bourré de failles de sécu, qui balance toutes vos données en chine ) qui, une fois lâché chez vous avec sa seule petite caméra bas de gamme, peut se balader dans toute la maison pour vous rendre tout un tas de services. Sauf qu'ici il opère dans des lieux qu'il n'a jamais vus, en suivant vos consignes vocales de pièce en pièce, et il peut même refaire tout le trajet à l'envers sur commande. C'est en tout cas, assez cool de voir ces world models enfin capables d'apprendre à résoudre des problèmes auxquels il n'a encore jamais été confronté.
L'astuce, c'est d'entraîner un seul modèle sur les données de plein de robots différents d'un coup, au lieu de repartir de zéro pour chaque machine. Du coup un geste appris sur un bras X se transfère direct sur un autre bras Y, et chaque robot profite ainsi, en quelque sorte, de l'expérience accumulée par tous les congénères du lot. Et tout ça a été nourri avec plus de 38 000 heures de données, uniquement en l'open-source, dont des vidéos de gens filmés en train de faire des trucs, et adapté pour que la machine puisse apprendre en regardant faire des humains .
Votre navigateur ne supporte pas la lecture de vidéos HTML5. Voici un lien vers la vidéo.Et niveau perfs, ça tape fort apparemment !
Sur les benchmarks de manipulation, RobotManip passe devant π0.5, un modèle de Physical Intelligence dont je vous avais déjà parlé, avec quand même 7 points d'avance, sur un benchmark de manipulation standard. Il finit aussi premier sur RoboChallenge, le classement généraliste du secteur. Bon, ce sont des chiffres de labo bien sûr, mais le saut par rapport à la concurrence fait mal ^^.
Ce que Qwen veut faire surtout, c'est de tout passer par le langage naturel comme ça une commande de bras, un virage de voiture, un point de navigation et compagnie... tout devient une simple phrase. Cela permet aux modèles Qwen classiques d'appeler ces briques comme des outils, et de brancher l'intelligence artificielle classique (les LLMs) directement sur l'action physique (les World Model). La presse parle déjà d'un "moment Android" pour la robotique, autrement dit un cerveau logiciel que n'importe quel fabricant de bras ou de roues pourrait embarquer sans avoir à fabriquer la quincaillerie. Ce serait fou !
Après, Chat2Robot tourne sur 50 tâches seulement et n'est pas parfait. Le tout est en test pilote chez quelques clients d'Alibaba Cloud, donc c'est pas encore pour votre robot aspirateur... Mais si le concept de robot à la maison vous intéresse, c'est une approche intéressante je trouve. Entre Physical Intelligence, Gemini Robotics chez Google et GR00T chez NVIDIA, tout le monde semble cherche le même Graal, à savoir une IA généraliste capable de piloter n'importe quel corps mécanique. Bref, Alibaba ne vend pas de robot, mais le cerveau qui va dedans, et le fait que ce soit entièrement open-source et orienté langage me fait dire qu'on risque de voir plein de projets cools et surtout accessibles se monter autour de ça.