Limites des techniques de compression d’IA à grande échelle
Alors que les modèles d'intelligence artificielle ne cessent de croître en taille et en complexité, optimiser leur efficacité devient un enjeu crucial. La quantification, une technique phare pour réduire leur empreinte mémoire et accélérer leur inférence, pourrait cependant approcher de ses limites selon une étude récente. Explications.
La course à l'efficacité des modèles d'IA
Dans le domaine de l'intelligence artificielle, la quantification consiste à réduire le nombre de bits nécessaires pour représenter les paramètres internes d'un modèle. L'idée est d'obtenir une précision suffisante pour la tâche visée, sans gaspiller de ressources. C'est un peu comme arrondir une heure : dire "midi" est souvent amplement suffisant, inutile de préciser "midi une seconde et quatre millisecondes".
Les modèles d'IA reposent sur des millions voire des milliards de paramètres. Les quantifier, c'est alléger considérablement la charge de calcul, un enjeu crucial pour déployer ces modèles à grande échelle. Cependant, des chercheurs de Harvard, Stanford, MIT, Databricks et Carnegie Mellon tirent la sonnette d'alarme : la quantification aurait des limites, qui pourraient être atteintes plus vite que prévu.
Des compromis inattendus
Leur étude montre que les modèles quantifiés voient leurs performances se dégrader si la version originale non quantifiée a été entraînée longtemps sur beaucoup de données. Autrement dit, plutôt que de compresser a posteriori un énorme modèle, il vaudrait mieux directement entraîner un modèle plus petit.
Le coût numéro un de l'IA est et restera l'inférence, et notre travail montre qu'une piste majeure pour le réduire ne fonctionnera pas éternellement.
Tanishq Kumar, étudiant à Harvard et premier auteur de l'étude
C'est une mauvaise nouvelle pour les géants de l'IA qui misent sur l'approche "toujours plus gros, toujours plus de données" pour leurs modèles, avant de les quantifier pour les rendre utilisables. Des effets commencent à se faire sentir : des chercheurs ont constaté que quantifier le modèle Llama 3 de Meta tendait à être "plus dommageable" que pour d'autres modèles, peut-être à cause de sa méthode d'entraînement particulièrement lourde.
Entraîner "bas de gamme" pour mieux quantifier
Y a-t-il une parade ? Les auteurs avancent une piste : entraîner directement les modèles en basse précision les rendrait plus robustes à la quantification. On parle ici de précision numérique, c'est-à-dire du nombre de chiffres après la virgule utilisés dans les calculs. La plupart des modèles sont aujourd'hui entraînés en "demi-précision" 16 bits, puis quantifiés en précision 8 bits.
Certains acteurs comme Nvidia poussent vers des précisions encore plus basses, comme le FP4 (4 bits) sur leurs nouvelles puces d'inférence Blackwell. Mais attention, prévient l'étude : en dessous de 7-8 bits, la dégradation devient sensible, sauf pour les modèles vraiment gigantesques.
Vers une IA plus frugale ?
Au-delà des considérations techniques, cette étude soulève une question plus large : la course actuelle à des modèles d'IA toujours plus énormes et gourmands est-elle soutenable ? Face à la perspective de rendements décroissants, certains acteurs pourraient être tentés de revoir leur stratégie.
Plutôt que d'engraisser des modèles pour ensuite les faire maigrir, une piste serait de miser sur une "IA frugale" dès le départ : des architectures volontairement légères et optimisées, entraînées sur des données soigneusement sélectionnées et filtrées. Si les gains de la quantification ont une limite, il faudra bien trouver d'autres leviers pour démocratiser l'IA sans exploser les budgets énergie et calcul.
Une chose est sûre : la précision numérique est un paramètre crucial en IA, qui ne se laisse pas comprimer à l'infini sans conséquence. Comme le résume Tanishq Kumar : "On ne peut pas la réduire éternellement sans que les modèles en souffrent". La quantification n'est pas une baguette magique, et cette étude nous rappelle utilement que même en IA, il n'y a pas de repas gratuit.