OpenAI Entraîne les Modèles o1 et o3 à Réfléchir Avant de Répondre
Dans une nouvelle avancée dans le domaine de l'alignement de l'IA, la startup OpenAI vient de dévoiler sa méthode innovante d'entraînement de ses modèles de langage o1 et o3. Baptisée "alignement délibératif", cette approche vise à amener ces IA à réfléchir en fonction de la politique de sécurité de l'entreprise avant de fournir une réponse à une requête utilisateur.
Une nouvelle ère pour l'alignement de l'IA
Alors que les modèles de langage gagnent en popularité et en puissance, la question de leur alignement avec les valeurs humaines devient de plus en plus cruciale. OpenAI s'attaque à ce défi de front avec sa méthode d'alignement délibératif, qui intervient lors de la phase d'inférence, c'est-à-dire après que l'utilisateur ait soumis sa requête.
Un processus en plusieurs étapes
Concrètement, lorsqu'un utilisateur saisit une requête dans ChatGPT, les modèles o1 et o3 prennent entre 5 secondes et quelques minutes pour se reposer des questions de suivi, en décomposant le problème en étapes plus petites. C'est lors de ce processus, appelé "chain-of-thought", qu'intervient la magie de l'alignement délibératif.
En effet, OpenAI a entraîné ses modèles à se reposer des questions en lien avec sa politique de sécurité durant cette phase. Ils "délibèrent" ainsi en interne sur la manière de répondre de façon sûre, un peu comme ils décomposent les requêtes classiques en sous-étapes.
Des résultats prometteurs
Selon les chercheurs d'OpenAI, cette méthode a permis d'améliorer significativement l'alignement des modèles o1 et o3 avec la politique de sécurité de l'entreprise. Sur un benchmark mesurant la résistance aux tentatives de contournement classiques, o1-preview surpasse des modèles comme GPT-4o ou Claude 3.5 Sonnet.
L'alignement délibératif est la première approche qui enseigne directement à un modèle le texte de ses spécifications de sécurité et l'entraîne à délibérer sur ces spécifications lors de l'inférence.
OpenAI
Un entraînement sans données humaines
Un autre aspect novateur de cette méthode est qu'OpenAI a pu développer ses modèles sans utiliser de données étiquetées ou produites par des humains. À la place, l'entreprise a eu recours à des données synthétiques, c'est-à-dire des exemples créés par une autre IA pour entraîner o1 et o3.
Un modèle interne a ainsi généré des exemples de réponses "chain-of-thought" faisant référence à différentes parties de la politique de sécurité d'OpenAI. Un autre modèle "juge" a ensuite évalué la qualité de ces exemples, sur lesquels o1 et o3 ont finalement été entraînés.
Vers un futur plus sûr pour l'IA ?
Si l'alignement des IA avec les valeurs humaines est un enjeu majeur, sa mise en œuvre soulève de nombreuses questions, notamment sur la subjectivité des choix effectués. Néanmoins, OpenAI semble déterminé à relever ce défi, avec des résultats déjà prometteurs pour ses modèles o1 et o3.
Il faudra cependant attendre leur mise à disposition publique pour évaluer pleinement leurs capacités et leur sécurité. En attendant, l'alignement délibératif ouvre de nouvelles perspectives passionnantes pour l'avenir des interactions entre IA et humains.