Aucun problème pour expliquer dans ce thread à quoi correspondent QWEN 35B, GEMMA 31B, GPTOSS 20B, même si la demande initiale incite à plus parler hardware que de software.
@
sypqys a demandé un hardware pour faire tourner de l'IA locale afin d'analyser je suppose des documents confidentiels et privés. Car en effet le premier intérêt de faire tourner de l'IA (c'est un abus de langage, il faut plutôt parler de modèle de langage LLM), c'est éviter d'avoir à utiliser les LLM cloud comme ChatGPT, Gemini, Claude, etc. Tu ne sais ce qu'ils font de tes données et plus ça peut revenir très cher en matière de crédit token, de ressources API, abonnement mensuel, etc.
Le saint-Gral est donc de faire tourner à l'instar des LLM cloud, ton propre modèle sur ta propre infrastructure. En substance, La demande initiale de @
sypqys est qu'on l'aiguille sur un hardware, qui fait également NAS, susceptible de faire tourner ses modèles de langage LLM que l'on peut retrouver en OpenSource facilement sur le net. Accessibles ici :
https://ollama.com/library
En consultant le lien tu y trouves les noms que j'ai cités : Qwen, Gemma, Gpt-oss, etc.
Le hic est que pour faire tourner un LLM en local dans des conditions de performance et de temps de traitement et de réponse équivalent à LLM Cloud (Gemini, ChatGPT,Claude) il faut énormément de ressources, des types de RAM spécifique (VRAM), un processeur spécifique, beaucoup d'espace de stockage, un GPU spécifique (si on fait du machine learning). Les machines pour faire tourner ça, coutent généralement entre 15k€ à 50k€. Donc 4000 € c'est du pipi de chat.
Comme peu de personnes sur terre ont le budget suffisant pour cela, les modèles LLM Opensource sont téléchargeables avec des niveaux de paramètres réduits afin qu'ils puissent être exécutés sur du matériel plus modeste. Quand je parle de QWEN 35B, GEMMA 31B, GPTOSS 20B, cela correspond à des LLM avec des niveau de paramètre certifiés comme pouvant être exécuté par le N5 max dans sa version 64 Go. Plus le chiffre avant le "B" est important, plus le LLM demande la RAM à bande passante rapide (VRAM ou LPDDR5X) pour tourner correctement avec des délais de réponse acceptable.
Il faut aussi que la machine aient un NPU le plus performant possible. Suivant les gammes, le N5 propose un NPU allant de 50 TOPS à 126TOPS.
Je parle en connaissance de cause, j'ai acquis récemment le N5 pro avec 96 G0 de ram ECC (ce n'est pas du LPDDR5X) et un NPU de 80 TOPS. Ca me permet de faire tourner avec plus ou moins de réussite des petits modèles à 20B de paramètre. Donc je n'ai pas lu que "les informations commerciales".
Le N5 MAX a été spécialement conçu pour faire tourner des LLM en local, et Minisforum installe nativement un agent IA openclaw. Sa ram est LPDDR5x et son processeur est un AMD 365+Max STRIX HALO 126 TOPS conçu pour accélérer la génération de token. Accessoirement il fait NAS aussi

.
La version à 4200 boules peut théoriquement faire tourner des LLM 64B avec des délais acceptables. Plus besoin de mettre entre 10 k€ et 20 k€ pour avoir le même niveau de performance. 4000 € c'est cher mais ça démocratise l'IA en local.
@
augerd, pour ta culture générale, je t'invite à lire le lien suivant :
https://blent.ai/blog/a/ollama-llm
Maintenant j'ai compris que @
sypqys n'a pas le budget pour investir dans un NAS IA à 4000 €. C'est pour ça que j'ai étendu mon propos au NAS N5 pro dans sa version de base au pris de 659 €. Il y en a pour tous les budgets, mais qu'il ne s'attende pas à ce prix là, à exécuter des LLM 8B dans des conditions satisfaisantes.
Parler de LLM en local sans parler de nombre de paramètre (...B) n'a finalement aucune sens.