Apple s’impose dans l’IA open source avec un LLM innovant
Et si Apple venait bousculer le monde de l'intelligence artificielle open source ? C'est le pari que semble prendre la firme à la pomme avec la publication de sa famille de modèles de langage DCLM. Allant jusqu'à près de 7 milliards de paramètres, ces LLM se veulent une démonstration éclatante de l'impact des jeux de données et de leur curation sur les performances des IA.
DCLM, le pari de la compacité et de l'open source
Publiés sur la plateforme Hugging Face, les modèles DCLM (DataComp for Language Models) se déclinent en plusieurs versions allant de 412 millions à 6,9 milliards de paramètres. Une prouesse rendue possible grâce à un travail minutieux sur les ensembles de données d'entraînement, comme l'explique Vaishaal Shankar, chercheur en machine learning chez Apple :
À notre connaissance, ce sont de loin les modèles véritablement open source les plus performants.
– Vaishaal Shankar, chercheur en machine learning chez Apple
Par "véritablement open source", le chercheur entend des modèles dont les données, les poids ainsi que le code d'entraînement sont entièrement accessibles. Une transparence qui tranche avec les pratiques habituelles dans le domaine.
Le modèle phare DCLM-7B
La star de cette nouvelle gamme est sans conteste DCLM-7B et ses 6,9 milliards de paramètres. Entraîné sur l'ensemble de données DCLM-Baseline, constitué de 2500 milliards de tokens principalement en anglais, ce modèle se montre compétitif face à des ténors comme :
- Mistral 7B de Mistral AI
- Llama 3 de Meta
- Gemma de Google
- Qwen 2 d'Alibaba Cloud
Et ce, sur la plupart des benchmarks d'évaluation. Un tour de force rendu possible grâce au savoir-faire d'Apple en matière d'optimisation et à l'utilisation de GPU H100 de dernière génération pour l'entraînement.
Des performances au rendez-vous
Concrètement, DCLM-7B surpasse des modèles open source de référence comme Falcon, OLMo-1.7 et MAP-Neo sur de nombreux tests. Il réalise notamment un score de 6,6% supérieur à MAP-Neo sur le benchmark MMLU, tout en nécessitant 40% de calcul en moins lors de l'entraînement.
Des résultats similaires sont observés face à Mistral-7B et Llama 3, avec des performances très proches sur des tâches de compréhension du langage naturel. Et ce, malgré un entraînement 6,6 fois moins gourmand en ressources de calcul comparé à Llama 3 !
Une approche multi-modèles
Loin de se reposer sur ses lauriers, Apple décline DCLM en plusieurs variantes :
- Une version allégée à 1,4 milliard de paramètres, co-développée avec le Toyota Research Institute, qui surpasse nettement les modèles SmolLM.
- Des déclinaisons optimisées par les instructions de ces modèles, pour une meilleure adaptation aux cas d'usage.
Une approche sur-mesure qui témoigne de la volonté d'Apple de fournir des briques technologiques adaptées à un maximum de scénarios dans le domaine de l'IA.
Des modèles prometteurs mais perfectibles
Si les performances de DCLM forcent le respect, Apple tient à rappeler qu'il s'agit de travaux de recherche préliminaires. Les modèles peuvent encore présenter certains biais hérités de leurs données d'entraînement, issues de l'exploration du web.
De plus, leurs connaissances se limitent à la période précédant l'arrêt de la collecte des données. Un travail d'amélioration et d'actualisation reste donc à mener pour exploiter pleinement le potentiel de ces IA.
Vers un nouvel âge d'or de l'IA open source ?
Avec la publication des modèles DCLM, Apple envoie un signal fort à la communauté de l'intelligence artificielle. En démontrant qu'il est possible de créer des LLM performants et compacts avec une approche 100% open source, la firme ouvre la voie à une démocratisation et une accélération de la recherche dans le domaine.
Un petit pas pour Apple, un grand pas pour l'IA ? L'avenir nous le dira, mais une chose est sûre : la pomme compte bien croquer le marché de l'intelligence artificielle à pleines dents et imposer sa vision d'une IA ouverte et accessible. Les géants du secteur sont prévenus !