Nvidia Dévoile Cosmos 3 : L'Omnimodèle Open Source Qui Donne des Yeux et des Mains aux Robots
technique

Nvidia Dévoile Cosmos 3 : L'Omnimodèle Open Source Qui Donne des Yeux et des Mains aux Robots

Nvidia vient de frapper fort au GTC de Taipei avec Cosmos 3, un omnimodèle open source révolutionnaire. Il ne se contente pas de voir le monde, il le comprend et génère des actions concrètes pour l'IA physique, promettant des avancées colossales pour la robotique et l'IA embarquée.

L'IA qui ne se contente plus de regarder : elle agit.

Oubliez les IA qui analysent des images ou génèrent du texte. Nvidia vient de dévoiler Cosmos 3, et c'est une toute autre paire de manches. Au GTC de Taipei, le 1er juin, le géant a présenté ce qui est annoncé comme le premier omnimodèle entièrement open source dédié à l'IA physique. En clair : il ne se contente pas de comprendre le monde numérique, il est conçu pour interagir avec le monde réel. Une révolution pour les robots, la conduite autonome et bien plus encore.

Du pixel à l'action : la grande nouveauté.

Le problème avec les modèles multimodaux classiques, c'est qu'ils excellent à interpréter et à générer des représentations visuelles ou textuelles. Mais quand il s'agit de passer à l'action physique, ça coince. Cosmos 3 brise cette barrière. Il a été entraîné sur un corpus colossal : 20 000 milliards de tokens, incluant près d'un milliard d'images, 400 millions de vidéos, des données audio, du texte, et surtout, des traces d'actions captées sur des humains et des robots.

Résultat ? Le système peut générer des données concrètes, directement exploitables par des machines. On parle d'angles d'articulations d'un robot, de trajectoires précises, ou même de positions de pinces mécaniques. C'est le chaînon manquant pour entraîner des machines à interagir de manière autonome et intelligente avec leur environnement.

Cosmos 3 : des versions pour tous les besoins, même en local.

Nvidia ne fait pas les choses à moitié. Cosmos 3 arrive en plusieurs saveurs. Une version "Super" de 32 milliards de paramètres, optimisée pour la précision dans des tâches complexes comme la robotique et la conduite autonome. Et une version "Nano" de 8 milliards de paramètres, pensée pour les inférences rapides. Mais ce n'est pas tout : une troisième déclinaison "Edge", utilisable directement sur des appareils locaux sans connexion cloud, est annoncée prochainement. L'IA qui tient dans la poche, c'est pour demain.

Cette approche vers des modèles plus légers et déployables localement fait écho à la révolution de la quantification open source, qui vise à rendre l'IA de pointe accessible sans infrastructures massives.

Le vrai danger ? Ne pas l'adopter.

Ming-Yu Liu, vice-président du Cosmos Lab chez Nvidia, l'a dit sans détour : "modéliser les mouvements des machines, et non seulement l'apparence des environnements, est la clé des systèmes autonomes réellement opérationnels." En clair, c'est une étape cruciale pour l'avenir de l'IA et de la robotique. Pouvoir simuler des scénarios rares ou dangereux, comme des collisions robotiques, offre un terrain de jeu inédit pour l'entraînement.

Ces capacités d'autonomie et de compréhension d'actions sont fondamentales pour les futurs agents intelligents, un domaine où des innovations comme C-LoRA ont déjà montré la voie.

« L'IA physique n'est plus un concept. C'est une réalité open source, prête à transformer nos industries. »

- Un observateur du GTC Taipei

Avec Cosmos 3, Nvidia ne lance pas juste un nouveau modèle. Ils posent les fondations d'une nouvelle ère où l'IA ne se contente plus de penser, mais agit, comprend et façonne le monde physique. Le futur est au bout de leurs pinces robotiques.

Besoin d'avancer sur ce sujet ?

Discutons de vos enjeux spécifiques lors d'un audit informel.

Parler à un expert
Lou Chardin

Lou Chardin

Head of Product

Conçoit les architectures de données et les OS métiers IA d'Astoïk. Passionné par l'intégration pratique de l'IA générative.

Profil LinkedIn
Publié le06 juin 2026
Partager l'article
Nous contacter