Dans le monde de l’IA, on a souvent le choix : soit on garde un modèle énorme et précis, soit on le comprime (quantification) au prix de quelques neurones grillés. Cloudflare vient de briser ce dilemme lors de son « Agents Week » en publiant Unweight, un système de compression open source capable de réduire la taille des modèles de 15 à 22 % tout en restant bit à bit identique à l’original.
C’est une petite révolution pour l’inférence (Ndlr : l’inférence est la phase où le modèle d’IA « réfléchit » pour répondre à une question, par opposition à la phase d’entraînement), car le principal goulot d’étranglement des GPU modernes comme le Nvidia H100 n’est pas leur puissance de calcul, mais la vitesse à laquelle la mémoire peut leur fournir des données.
Le problème : le bus mémoire est une tortue
Sur un GPU H100, les cœurs de calcul (Tensor Cores) traitent les données 600 fois plus vite que la mémoire principale ne peut les envoyer. Chaque octet qui traverse le bus mémoire est un frein. L’idée d’Unweight est brillante : stocker les poids de l’IA sous forme compressée dans la mémoire lente du GPU, puis les décompresser « à la volée » directement dans la mémoire ultra-rapide située au plus près des puces de calcul.
Contrairement à la quantification (Ndlr : technique qui réduit la précision des nombres, par exemple de 16 bits à 4 bits, pour gagner de la place mais qui peut induire des erreurs de raisonnement), Unweight est totalement sans perte. Le modèle compressé produit exactement la même réponse qu’un modèle non compressé.
La magie du code de Huffman
Pour réussir ce tour de force, les chercheurs de Cloudflare ont exploité une faille dans la manière dont les modèles d’IA (les LLM) sont structurés. Chaque nombre est stocké sur 16 bits, mais les « exposants » de ces nombres sont très prévisibles. En utilisant le codage de Huffman (une technique classique qui attribue des codes courts aux valeurs fréquentes et longs aux valeurs rares), Cloudflare parvient à réduire radicalement le poids des couches MLP, qui représentent deux tiers du modèle.
Les résultats sur Llama 3.1 8B :
-
Économie de mémoire avec environ 3 Go de VRAM économisés.
-
Compression : 30 % sur les couches MLP, soit ~20 % sur le modèle total.
-
Fidélité : 100 % (aucune perte de qualité).

Open source
Cloudflare a publié l’intégralité des noyaux GPU (kernels) en open source sur GitHub sous licence BSD-3-Clause. Cette démarche permet aux développeurs d’extraire des économies supplémentaires, même sur des modèles déjà quantifiés.
L’équipe, composée de Mari Galicer, Ivan Nikulin et Chris Branch, ne compte pas s’arrêter là. Le rapport technique mentionne déjà des travaux pour étendre cette compression aux mécanismes d’attention, ce qui pourrait faire grimper les gains de place bien au-delà des 22 % actuels. Pour Cloudflare, c’est un moyen de faire tourner plus de modèles sur une seule carte, rendant l’IA plus accessible et moins coûteuse sur son réseau mondial.
