OpenAI dévoile de nouveaux outils pour développeurs d’IA
Malgré une semaine mouvementée marquée par des départs au sommet et des levées de fonds majeures, la startup OpenAI était de retour pour convaincre les développeurs de créer des outils avec ses modèles d'IA lors de son DevDay 2024. La société a annoncé plusieurs nouveautés mardi, dont une version bêta publique de son "API Realtime", permettant de construire des applications avec des réponses vocales générées par l'IA à faible latence.
Une API temps réel pour des interactions vocales fluides
L'API Realtime d'OpenAI offre aux développeurs la possibilité de créer des expériences de dialogue en temps quasi réel dans leurs applications, avec le choix entre six voix fournies par OpenAI. Lors d'une démonstration, Romain Huet, responsable de l'expérience développeur chez OpenAI, a présenté une application de planification de voyage intégrant l'API. Les utilisateurs pouvaient échanger verbalement avec un assistant IA sur un prochain séjour à Londres et obtenir des réponses à faible latence, le tout en annotant une carte avec des suggestions de restaurants.
Autre cas d'usage présenté : la capacité de l'API à converser au téléphone avec un humain pour passer une commande de nourriture pour un événement. Bien que l'API ne puisse pas appeler directement les restaurants ou les magasins, elle peut s'intégrer à des API d'appel comme Twilio pour le faire. Il est à noter qu'OpenAI n'ajoute pas de mention permettant à ses modèles de s'identifier automatiquement lors de tels appels, même si ces voix générées par l'IA semblent très réalistes. Pour l'instant, il incombe aux développeurs d'ajouter cette mention, ce qui pourrait être requis par une nouvelle loi californienne.
Fine-tuning visuel et distillation de modèles pour optimiser les performances
Parmi les autres annonces du DevDay, OpenAI a introduit le fine-tuning visuel dans son API, permettant aux développeurs d'utiliser des images, en plus du texte, pour affiner leurs applications de GPT-4o. Cela devrait en théorie aider les développeurs à améliorer les performances de GPT-4o pour des tâches impliquant la compréhension visuelle. OpenAI précise que les développeurs ne pourront pas télécharger d'images protégées par le droit d'auteur, d'images montrant de la violence ou d'autres contenus enfreignant ses politiques de sécurité.
OpenAI propose également une fonctionnalité de distillation de modèles permettant aux développeurs d'utiliser des modèles d'IA plus grands, tels que o1-preview et GPT-4o, pour affiner des modèles plus petits comme GPT-4o mini. L'exécution de modèles plus petits offre généralement des économies par rapport à l'exécution de plus grands modèles, mais cette fonctionnalité devrait permettre aux développeurs d'améliorer les performances de ces petits modèles d'IA.
Rattraper le retard face à la concurrence
Avec ces nouveautés, OpenAI cherche à rattraper ses concurrents sur le marché des licences de modèles d'IA. Sa fonctionnalité de mise en cache des prompts s'apparente à celle lancée par Anthropic il y a plusieurs mois, permettant aux développeurs de mettre en cache le contexte fréquemment utilisé entre les appels d'API, réduisant ainsi les coûts et améliorant la latence. OpenAI affirme que les développeurs peuvent économiser 50 % grâce à cette fonctionnalité, tandis qu'Anthropic promet une réduction de 90 %.
Le DevDay a cependant fait l'impasse sur certains sujets très attendus, comme des nouvelles du GPT Store annoncé l'an dernier. Aux dernières nouvelles, OpenAI pilotait un programme de partage des revenus avec certains des créateurs de GPT les plus populaires, mais la startup n'a pas fait d'annonce majeure depuis. De plus, aucun nouveau modèle d'IA n'a été dévoilé cette année. Les développeurs attendant la version complète d'OpenAI o1 ou le modèle de génération vidéo Sora devront patienter encore un peu.
Garder le cap malgré les turbulences internes
Ces annonces interviennent dans un contexte interne agité pour OpenAI, avec les départs de sa directrice technique Mira Murati et de son directeur de la recherche Bob McGrew. Des mouvements qui rappellent les turbulences ayant suivi le DevDay de l'an dernier. Lors d'un point presse avant l'événement, Kevin Weil, directeur des produits d'OpenAI, a tenu à rassurer :
Bob et Mira ont été des leaders formidables. J'ai beaucoup appris d'eux et ils ont largement contribué à nous mener là où nous sommes aujourd'hui. Mais nous n'allons pas ralentir pour autant.
Kevin Weil, directeur des produits d'OpenAI
Face à cette énième restructuration de son équipe dirigeante, OpenAI s'efforce de convaincre les développeurs qu'elle offre toujours la meilleure plateforme pour créer des applications d'IA, malgré une concurrence de plus en plus féroce. La startup revendique plus de 3 millions de développeurs utilisant ses modèles d'IA. Elle a également souligné avoir réduit de 99 % les coûts d'accès à son API au cours des deux dernières années, même si elle y a sans doute été contrainte par des concurrents comme Meta et Google qui ne cessent de baisser leurs prix.
Reste à voir si ces annonces et la volonté affichée de maintenir le cap suffiront à rassurer le marché et les développeurs. OpenAI devra continuer d'innover et de se démarquer dans un secteur en pleine ébullition où la course à l'IA générative bat son plein.