DeepSeek : Mistral Révolutionne l’IA avec un Modèle Open Source Puissant
Il y a six mois, Anjney "Anj" Midha, associé général chez Andreessen Horowitz et membre du conseil d'administration de Mistral, a été témoin des performances époustouflantes de DeepSeek pour la première fois. C'est à cette époque que DeepSeek a présenté Coder V2, un modèle rivalisant avec GPT4-Turbo d'OpenAI pour les tâches de codage selon un article publié l'an dernier. Depuis, DeepSeek a enchaîné les sorties de modèles améliorés tous les deux mois jusqu'à R1, son nouveau modèle de raisonnement open source qui a bousculé l'industrie technologique en offrant des performances de niveau industriel à une fraction du coût.
Malgré la chute du cours de l'action Nvidia, Midha affirme que R1 ne signifie pas pour autant que les modèles fondateurs d'IA vont cesser de dépenser des milliards pour engloutir des puces GPU et construire des centres de données le plus rapidement possible.
Quand les gens me disent : "OK Anj, Mistral a levé un milliard de dollars, est-ce que DeepSeek rend ce milliard complètement inutile ?" Non, en fait, c'est extrêmement précieux pour eux de pouvoir examiner les améliorations d'efficacité de DeepSeek, les intégrer, puis investir un milliard de dollars.
– Anjney Midha, a16z
Selon lui, cela signifie simplement qu'ils feront plus avec la puissance de calcul qu'ils peuvent obtenir. "Maintenant, nous pouvons obtenir 10 fois plus de résultats à partir de la même puissance de calcul", explique-t-il.
Mistral reste compétitif grâce à l'open source
Cela ne veut pas dire que Mistral est désespérément à la traîne derrière ses rivaux OpenAI et Anthropic, qui ont chacun levé bien plus de milliards que Mistral. OpenAI serait en pourparlers pour lever 40 milliards de dollars supplémentaires, un montant à couper le souffle.
Mistral reste compétitif face à eux car il est open source, argue Midha. Et sa logique a du mérite. L'open source donne à une entreprise accès à une main-d'œuvre technique essentiellement gratuite de la part de ceux qui veulent aider parce qu'ils utilisent le projet. Les rivaux à code fermé gardent leurs secrets et doivent payer pour toute la main-d'œuvre ainsi que pour la puissance de calcul.
"Vous n'avez pas besoin de 20 milliards de dollars. Il vous faut juste plus de puissance de calcul que n'importe quelle autre application de modèle open source. Mistral est donc bien positionné. Ils ont le plus de puissance de calcul de tous les fournisseurs open source", a déclaré Midha au sujet de son entreprise en portefeuille.
– Anjney Midha, a16z
Llama de Facebook, le plus grand rival occidental des modèles IA open source de Mistral, bénéficiera également de bien plus d'investissements. Le PDG Mark Zuckerberg a déclaré mercredi qu'il prévoyait toujours de dépenser "des centaines de milliards de dollars" dans l'IA en général. Cela comprend 60 milliards de dollars en 2025 pour les dépenses d'investissement, principalement les centres de données.
Le programme de partage de GPU d'a16z est "surbooké"
Midha, qui siège également au conseil d'administration du générateur d'images IA Black Forest Labs et du créateur de modèles 3D Luma (et qui est un ange dans les startups d'IA Anthropic, ElevenLabs et d'autres), a une autre raison de penser que la faim de l'IA pour les GPU ne va pas s'atténuer de sitôt.
Il est le responsable du programme Oxygen d'a16z. Les GPU, en particulier les H100 de dernière génération de Nvidia, sont devenus une denrée si rare que la société de capital-risque a pris les choses en main il y a environ un an et demi. Elle en a acheté un grand nombre pour que les entreprises de son portefeuille puissent les utiliser.
Oxygen est "surbooké en ce moment. Je ne peux pas en allouer assez", s'amuse Midha. Non seulement ses startups ont besoin de GPU pour l'entraînement des modèles d'IA, mais elles en ont encore plus besoin pour faire fonctionner leurs produits d'IA en continu pour les clients.
– Anjney Midha, a16z
"Maintenant, il y a cette demande insatiable d'inférence, de consommation", explique-t-il.
C'est aussi pourquoi il pense que les percées d'ingénierie de DeepSeek ne changeront pas non plus Stargate, le grand partenariat de 500 milliards de dollars annoncé ce mois-ci entre OpenAI, SoftBank et Oracle pour les centres de données IA.
L'IA comme infrastructure fondamentale pour les nations
Le changement majeur qu'apporte DeepSeek est la reconnaissance par les États nations que l'IA est la prochaine infrastructure fondamentale, comme l'électricité et l'internet. Midha veut qu'ils envisagent "l'indépendance des infrastructures", comme il l'appelle. Veulent-ils s'appuyer sur des modèles chinois, avec sa censure et ses griffes dans leurs données ? Ou veulent-ils des modèles occidentaux qui suivent les lois et l'éthique occidentales et respectent les accords de l'OTAN ?
Il plaide évidemment pour que les nations occidentales utilisent des modèles occidentaux, comme son Mistral basé à Paris. Des centaines d'entreprises partagent cette préoccupation et ont déjà bloqué DeepSeek, qui est à la fois un service d'application grand public et un modèle open source.
Tout le monde n'adhère pas à cette peur des modèles open source chinois. Les entreprises peuvent les exécuter localement dans leurs propres centres de données. Et DeepSeek est déjà disponible en tant que service cloud sécurisé auprès d'entreprises américaines comme Microsoft Azure Foundry, de sorte que les développeurs n'ont pas à utiliser le service cloud de DeepSeek.
En fait, l'ancien PDG d'Intel, Pat Gelsinger - quelqu'un qui connaît bien la Chine - a déclaré à TechCrunch que sa startup Gloo construit des services de chat IA sur leur propre version de DeepSeek R1 au lieu des choix comme Llama ou OpenAI.
Mais si quelqu'un veut abandonner ses projets de centres de données à la lumière de DeepSeek, Midra rit et a une requête : "Si vous avez des GPU supplémentaires, envoyez-les à Anj, s'il vous plaît".