Nvidia vient de siffler la fin de la récréation pour les architectures fragmentées souvent utilisées dans la conception des agents. Ce mardi 28 avril 2026, le géant des puces a dévoilé Nemotron 3 Nano Omni, un modèle open source capable de traiter simultanément la vision, l’audio et le texte au sein d’une seule et même architecture.
Traditionnellement, un agent IA doit jongler entre un modèle pour la voix, un autre pour l’image et un troisième pour le raisonnement textuel, perdant ainsi un temps précieux et du contexte lors des transferts de données. Nemotron 3 Nano Omni élimine ces silos en intégrant tout dans un système unique et fluide.
Une architecture Mixture-of-Experts pour une efficacité record
Ce nouveau modèle repose sur une architecture Mixture-of-Experts (MoE) hybride de 30 milliards de paramètres. Le génie de cette conception réside dans son économie de ressources car seuls 3 milliards de paramètres sont activés lors de chaque inférence. Cette approche permet d’obtenir la puissance de réflexion d’un modèle massif pour une fraction du coût de calcul habituel.
Nvidia annonce des performances de haut vol, avec un débit jusqu’à 9 fois plus élevé que les modèles concurrents et un raisonnement vidéo trois fois plus rapide. Avec une fenêtre de contexte de 256 000 tokens, le modèle peut ingérer des documents complexes ou des vidéos entières sans sourciller, se plaçant en tête des classements pour l’intelligence documentaire et la compréhension vidéo.

Les « yeux et les oreilles » des agents IA de nouvelle génération
Nvidia positionne Nemotron 3 Nano Omni comme la couche de perception fondamentale de sa famille de modèles. Il sert de véritable sub-agent capable de voir et d’entendre l’environnement numérique avant de transmettre ses analyses à des modèles plus lourds pour la planification complexe. Des entreprises comme Palantir, Foxconn ou encore H Company ont déjà adopté la solution.
Gautier Cloix, PDG de H Company, explique d’ailleurs que le modèle permet enfin à leurs agents d’analyser des captures d’écran en Full HD en temps réel, une prouesse autrefois impraticable à cause de la latence excessive des systèmes multisources. L’agent peut désormais naviguer dans des interfaces graphiques complexes et réagir instantanément à ce qu’il « voit » à l’écran.
Une ouverture totale pour la personnalisation
Fidèle à sa stratégie d’écosystème ouvert, Nvidia a publié le modèle avec ses poids, ses jeux de données et ses recettes d’entraînement. Les développeurs peuvent donc le personnaliser entièrement pour des cas d’usage spécifiques, qu’il s’agisse d’analyse de médias ou de navigation logicielle.
Le modèle est d’ores et déjà disponible sur les plateformes majeures comme Hugging Face pour le téléchargement direct ou OpenRouter pour une utilisation simplifiée via API. On peut également tester la technologie directement sur le portail Build.Nvidia.
Avec plus de 50 millions de téléchargements pour la famille Nemotron l’an dernier, Nvidia confirme que l’avenir de l’IA sera résolument omni-sensoriel.
