Jetson Orin Nano : Nvidia propose une SBC spécialisée dans l’IA

La carte de développement Jetson Orin Nano de Nvidia cherche à répondre à une problématique assez simple : à quoi va servir l’IA ?

La carte Jetson Orin Nano se présente comme un ordinateur intégré dans un format de carte de développement, à l’instar des célèbres Raspberry Pi. Ce n’est pas vraiment une nouveauté pour Nvidia qui propose ce type d’équipement depuis des années. Ce qui change ici, c’est la volonté derrière le matériel embarqué. Une volonté qui s’analyse dès la découverte de son prix.

On commence par quelques données techniques, afin de savoir de quoi on parle, mais ce n’est pas le plus important ici. La Nvidia Jetson Orin Nano est toujours basée sur l’architecture Ampère de la marque, elle embarque 1024 cœurs CUDA et 32 Tensor Core pour sa partie graphique. Son cœur de calcul est confié à une solution ARM 6 cœurs Cortex A78AE cadencés à 1.7 GHz. La mémoire vive grimpe à 8 Go de LPDDR5 avec une bande passante de 102 GB/s. La partie stockage est double avec un lecteur de cartes MicroSDXC très classique d’un côté, mais également deux ports M.2 2280 NVMe pour des stockages et des débits plus conséquents. Le premier propose un format NVMe PCIe Gen3 X4 et le second un Gen3 X2.

La carte propose par ailleurs un module Wi-Fi5 et Bluetooth monté sur un troisième port M.2 2230 et une connectique typique des cartes de développement : double MIPI CSI-2 destiné à accepter deux flux vidéo, quatre ports USB 3.2 Type-A, un USB Type-C, un Ethernet Gigabit, une sortie vidéo au format DisplayPort ainsi que les 40 broches classiques du monde des cartes de développement destinées à supporter des extensions externes. L’alimentation est assurée par un jack.

Un ensemble de 12 broches permettra de connecter des boutons pour interface la carte avec un panneau de commande et un ventilateur est fourni, alimenté par une broche 4 fils adaptable. L’ensemble mesure en tout 10.3 cm de large pour 9.05 cm de haut et 3.47 cm d’épaisseur en comptant le système de refroidissement âssif. 5.9 cm d’épaisseur avec le ventilateur.

Le tout consomme 25 watts ce qui est très peu si l’on met en face les capacités de calcul développées par la carte. La nouvelle solution offrira 67 TOPS de puissance de calcul, c’est 70% de plus que le précédent modèle. Et c’est là qu’on entre dans le cœur du projet de Nvidia. 

Une carte Jetson Orin Nano 1.7 fois plus rapide pour moitié moins cher ?

Anciennement vendue à 499$ dans sa version la plus évoluée (les cartes Nano 4 et 8 Go de base coutaient entre 199 et 299$), la SBC est désormais proposée à 249$. Parallèlement à cela, la puissance de calcul en Tera Operations par Seconde, les fameux TOPS qui servent à étager les propositions dédiées à l’Intelligence Artificielle, sont augmentées de 70%. Le tout sur un marché dans lequel il n’y a pas pour le moment une énorme concurrence.

Il y a là un souci logique si on considère le bain normal dans lequel ces produits sont plongés. Pourquoi Nvidia aurait la volonté de sabrer son prix par deux tout en multipliant les performances de son produit s’il n’y a pas de produit équivalent actuellement sur le marché. Si on se réfère à une simple logique classique du monde capitaliste, l’engin aurait dû, soit garder son tarif de base de 499$, soit augmenter son prix. 

Je n’ai pas eu vent de solution concurrente annoncée ou en passe d’être annoncée dans les trimestres à venir. Par contre, on voit que Nvidia commence à avoir des produits en face de son offre de supercalculateurs à destination des entreprises développant des produits IA. Les machines qui servent à piloter les outils en ligne comme Chat-GPT sont presque toutes fournies par Nvidia et c’est le moteur de leur croissance gigantesque ces dernières années. 

Comment faire pour que le marché continue d’investir en masse dans des solutions Nvidia et non pas chez des concurrents ? C’est assez simple, il faut que l’écosystème soit constamment irrigué de nouvelles idées, de nouveaux développements, d’outils innovants qui s’appuient sur l’architecture de la marque. Il faut innerver l’ensemble par la base. Faire en sorte que les étudiants d’aujourd’hui, les laboratoires de recherche, les développeurs en tous genres se servent de cette matrice pour piloter leurs idées et leurs programmes. De telle sorte que, quand ils arrivent sur le marché du travail ou qu’ils développent un nouvel algorithme, cela soit sur cette architecture précise.

Si demain le prochain Chat-GPT-like fonctionne sur une Jetson Orin Nano de Nvidia, alors il pourra être porté sur un serveur de Nvidia. Il sera évidemment beaucoup plus performant sur le serveur qui coute une fortune, mais la logique de programmation sera la même. 

On peut imaginer ici assez facilement que Nvidia veuille proposer ses outils à tous les développeurs de la planète intéressés par l’IA pour qu’ils puissent inventer les applications de demain avec son écosystème.

Les fonctions IA de DaVinci Resolve se passent de NPU

Vers une généralisation d’usages d’IA plus intéressants ?

2024 a tout de même été une année assez étonnante sur le sujet de l’intelligence artificielle. Alors que tout le monde n’a fait que parler d’IA, que divers acteurs ont conditionné leurs logiciels sous réserve d’une certaine puissance en TOPs, que les fabricants de processeurs mettaient l’accent sur les NPU embarqués et leurs performances, quasiment aucun programme n’est sorti en local en tirant parti de ces fonctionnalités. Pire, on sait que les NPU de première génération intégrés par AMD et Intel étaient suffisants pour qu’un outil les prenne véritablement en compte.

J’ai eu des conversations hallucinantes avec différents acteurs m’expliquant en quoi l’usage d’un NPU pour permettre une reconnaissance de visage ou un traitement basique était révolutionnaire alors que ces fonctionnalités sont présentes depuis des années et des années sur des PC classiques, sans NPU et sans que l’acronyme IA ne revienne en boucle.

J’utilise des outils de ce type depuis longtemps, comme tout le monde quand on fait de la vidéo ou de la retouche d’image. Les éléments qui permettent de faire du tracking d’objet en vidéo pour les effacer par exemple, utilisent des algorithmes de ce type depuis des années. Si cela s’est accéléré ces derniers temps, je pense à la génération de sous-titres par exemple avec DaVinci Resolve de Blackmagic, c’est en comptant sur les capacités des cartes graphiques et en particulier des cœurs CUDA. Les développeurs ont su trouver les ressources pour développer de nouveaux outils alors que les processeurs n’étaient pas à même d’y faire face. 

Les NPU processeurs dont on a mal à voir l’intérêt encore aujourd’hui

C’est peut-être cela le plus étonnant avec ces derniers trimestres. On nous a vendu de l’IA à tous les étages, aussi bien logiciellement que matériellement, mais sans nous proposer quoi que ce soit qui vaille la peine d’un point de vue utilisation. Rien qui n’existait pas déjà avant. De là à dire qu’on nous a mis la charrue avant les bœufs ne serait qu’un euphémisme de la réalité. Avec les premiers NPU et des propositions comme la fameuse touche Copilot de Microsoft on nous a vendu des roues en prétendant qu’il s’agissait d’une charrue complète. Et les bœufs n’étaient même pas encore dans l’étable pour tirer le tout.

L’arrivée de ce type d’outils, la Jetson Orin Nano et probablement d’autres solutions de ce type, devrait permettre d’inventer de futurs usages plus locaux. En espérant que ces propositions aient enfin un peu plus d’indépendance que les outils en ligne.


Soutenez Minimachines avec un don mensuel : C'est la solution la plus souple et la plus intéressante pour moi. Vous pouvez participer via un abonnement mensuel en cliquant sur un lien ci dessous.
2,5€ par mois 5€ par mois 10€ par mois Le montant de votre choix

Gérez votre abonnement

20 commentaires sur ce sujet.
  • 19 décembre 2024 - 15 h 08 min

    quand je vois les prérequis en mémoire et stockage pour faire tourner certains modèles d’IA on est loin du compte je trouve pour un matériel qui se veut focalisé sur son usage.

    Répondre
  • 19 décembre 2024 - 15 h 14 min

    @H2L29: C’est à considérer comme du maquettage, pas comme de la réalisation. Pour voir si ça tourne, mais pas pour en faire un outil je pense.

    Répondre
  • 19 décembre 2024 - 16 h 36 min

    Ma grande question, c’est de savoir si ç a peut faire tourner un LLM et éventuellement même un synthétiseur de voix. Si oui, je trouve la carte très intéressante pour se faire un assistant maison type Alexa mais sans avoir la crainte que les données partent n’importe où. Etant en train de plonger dans le rabbit hole qu’est home assistant, je serait très client pour une telle solution.

    Répondre
  • 19 décembre 2024 - 16 h 50 min
  • 19 décembre 2024 - 17 h 10 min

    Bientôt, une nouvelle base pour une Nvidia shield ? :)

    Répondre
  • 19 décembre 2024 - 17 h 20 min

    le buzz était le cloud / microservice… maintenant c’est ia qui est cité partout… alors qu’on faisait de l’analyse d’image il y a bien longtemps sans…

    Répondre
  • 19 décembre 2024 - 17 h 30 min

    @emul a tor: C’est pas vraiment le même genre de puce, tu auras plus d’infos sur une éventuelle nouvelle Shield quand la Switch 2 sera annoncée et/ou commercialisée, je suppose.

    Répondre
  • 19 décembre 2024 - 17 h 56 min

    Avec 8Go de RAM, il n’y aura pas beaucoup de modèles de LLM intéressants qui peuvent tourner dessus. Un PC et une carte graphique seront plus adaptés et bien plus pratiques à l’usage.
    J’ai l’impression que le seul intérêt, c’est si on a besoin d’une solution mobile avec une emprunte taille réduite.

    Répondre
  • Max
    19 décembre 2024 - 18 h 08 min

    Des roues sur une charrue ?
    Seul l’IA pouvait inventer ça !

    A part ça, ça fait des années que je travaille avec l’IA en python ou matlab, le plus souvent sur des machines minables et déjà dépassées à l’époque. C’est vrai que pour certains projets les watts sont bienvenus pour la conception, mais pour l’utilisation, c’est souvent léger à faire tourner. Une preuve c’est le nombre de projet sur Rpi.

    Répondre
  • 19 décembre 2024 - 21 h 20 min

    @Max:

    Beaucoup sont bloqués sur les IA génératives (qui sont également celles à la mode) et qui sont aussi celles qui ont les besoins les plus lourds. Mais ils ignorent qu’il existe énormément de choses bien plus légères.

    Répondre
  • 19 décembre 2024 - 22 h 53 min
  • 19 décembre 2024 - 23 h 34 min

    @Pierre Lecourt: Peut-être qu’il parlait des usages alternatifs possible (type media center) avec cette carte et non prévus par Nvidia comme on le voyait aprfois avec l’ancienne nano, à rapprocher d’une shield donc.

    Répondre
  • 20 décembre 2024 - 6 h 44 min

    @NotMe: Oui je suis d’accord là
    NVIDIA nous a fait une NVIDIA

    Ils ont du mal à mettre beaucoup de ram.
    Peut-être proposeront ils un modèle avec 32 go un jour ?

    Répondre
  • 20 décembre 2024 - 10 h 12 min

    @NotMe : « Un PC et une carte graphique seront plus adaptés et bien plus pratiques à l’usage. »

    Pas au même prix. Et trois des modèles de Mistral AI n’ont besoin que de 16 Go en production. Je suppose que 8 Go permettent tout de même de faire du prototypage

    Répondre
  • 20 décembre 2024 - 10 h 43 min

    La RAM augmente avec le nombre de paramètres (des millions !!!) du LLM.
    Il « suffit » de baisser la « puissance » du modèle pour rentrer dans la RAM de la carte.

    Si, comme @Alexis le pense, c’est pour faire un assistant vocal en mode autonome, ça peut être largement assez puissant (on ne lui demandera pas de faire l’exégèse de Shakespeare, mais juste de fermer les volets électriques…)

    A voir.
    Ceux qui maitrisent les technos IA seront les mieux placés pour offrir des solutions abouties adaptées pour la carte, et avec des vrais usages dans la vie réelle.

    Répondre
  • Max
    20 décembre 2024 - 11 h 55 min

    @FreeThinker:

    Hou lala !! le débat !!

    Soyons précis, ce site l’exige, la qualité de l’information est primordiale :
    Sur une charrue, la roue, quand il y en a une, n’est qu’accessoire et sert principalement à guider l’engin sur une multi socs bien longue. Sur une charrue traditionnelle plus courte, de 1 à 3 socs, pas besoin, donc y’en a pas.
    D’où ma remarque.
    L’araire c’est la version primitive de la chose, pas de confusion possible.

    Je clos là, sinon pour dire que la Jetson, dans un autre genre, est quand même une machine très intéressante, surtout à ce prix.

    Je crois que je vais chercher un projet qui pourrait justifier l’achat de la chose.

    Répondre
  • 20 décembre 2024 - 12 h 35 min

    @Max: Oh! 😆

    Achetez aussi une paire de roues, on ne sait jamais où les développements d’un projet peuvent conduire. Pour ma part, je regrette l’absence d’essieu pour les barrettes de mémoire. 😂

    Répondre
  • 20 décembre 2024 - 14 h 06 min

    Hello, on sait quand ce sera dispo ?

    M.

    Répondre
  • 22 décembre 2024 - 11 h 19 min

    Je rejoins la plupart sur le fait qu’avec aussi peu de mémoire, on ne risque pas d’utiliser un GPT (pas forcément CHAT-GPT, on peut générer autre chose que du texte) avec une précision suffisante pour que ce soit intéressant. Je vois parler de prototypage, mais les modèles trop fortement « quantized » donnent des résultats tellement foireux qu’on ne peut pas tirer réellement de conclusion avec ce type de modèle. C’est limite plus intéressant de laisser déborder un modèle de la VRAM pour prendre de la RAM en mode prototypage, et donc, avoir des lenteurs, plutot que de réduire la précision des poids de la matrice du modèle. Mais une fois de plus, il faut de la mémoire en quantité, de la VRAM et de la RAM.
    Après, de l’IA, ca veut dire tout et n’importe quoi … les RNN sont des modèles de deep learning, qui tournent sans GPU, sans aucun problème. Ils peuvent être accélérés par un GPU, mais ce n’est pas une nécessité. Ensuite, dans les modèles, il faut distinguer l’entraînement qui requiert BEAUCOUP plus de ressources que « juste » l’exécution d’une inférence. C’est vrai pour un modèle de computer vision, un modèle de NLP (natural language processing), … et c’est encore plus vrai avec les LLM qui sont des modèles très lourds. Les ressources requises pour l’entrainement d’un LLM sont loins de celles requises pour juste exécuter un LLM. Ensuite, dans les LLM, il faut distinguer les modèles généralistes des modèles spécialisés. Un modèle généraliste va demander beaucoup de mémoire (pour un niveau de précision cohérent ~ 70 Go de VRAM) mais l’utilisation va requérir potentiellement très peu de contexte. En revanche, un modèle spécialisé (par exemple : le word-completion, ou la génération de code ~ 30/40 GO) va peut-être moins gourmand, mais demander un contexte important (plusieurs milliers de tokens) pour être utilisable confortablement. L’augmentation de la taille du contexte fait TRES VITE croitre le besoin en mémoire.
    Un modèle de computer vision, par exemple, déjà entraîné, peut parfaitement tourner sur un RPI, son entrainement, c’est déjà plus compliqué (ou au moins plus long).
    La différence avec un GPU, c’est que ca permet de faire plus de de choses plus vite … des inférences temps réel, des ré-entrainements à la volée, des choses comme ca.

    Répondre
  • 26 décembre 2024 - 11 h 03 min

    […] La dernière proposition en date de Frore est donc le AirJet PAK, un boitier qui réduit drastiquement la taille de la cible visée puisqu’il s’agit ici d’une solution destinée à encaisser les 25 watts de diverses cartes de développement. Première cible choisie par la marque, la toute nouvelle Nvidia Jetson Orin Nano.  […]

  • LAISSER UN COMMENTAIRE

    *

    *