juillet 30, 2024

L’approche responsable d’Apple dans l’entraînement des modèles d’IA

Intelligence Artificielle
4 min de lecture
Modifier l'Article
385 Vues
Steven Soarez
0 Comments

Alors que l'intelligence artificielle prend une place de plus en plus importante dans nos vies, la question de l'éthique et de la responsabilité des entreprises développant ces technologies est plus que jamais d'actualité. C'est dans ce contexte qu'Apple a récemment publié un document technique détaillant l'approche adoptée pour entraîner ses modèles d'IA, baptisés Apple Foundation Models (AFM), qui alimenteront les futures fonctionnalités d'Apple Intelligence sur iOS, macOS et iPadOS.

Une approche centrée sur la vie privée et l'éthique

Apple tient à souligner sa démarche "responsable" dans la constitution des jeux de données utilisés pour entraîner ses modèles d'IA. Contrairement à certaines accusations, l'entreprise affirme n'avoir eu recours à aucune donnée privée de ses utilisateurs. Les AFM ont été entraînés à partir d'un mélange de données publiques, de contenus sous licence fournis par des éditeurs, ainsi que d'informations collectées par le robot d'indexation maison, Applebot.

Un filtre sur les licences open source

Concernant le code open source utilisé, principalement hébergé sur GitHub, Apple assure avoir mis en place un système de filtrage pour ne retenir que les dépôts présentant des restrictions d'usage minimales, comme ceux sous licence MIT, ISC ou Apache. Un point important alors que l'utilisation de code open source pour entraîner des IA fait débat au sein de la communauté des développeurs.

Un entraînement ciblé pour des capacités spécifiques

Pour renforcer les compétences des AFM en mathématiques, Apple a inclus dans son jeu de données d'entraînement des questions/réponses provenant de pages web, forums, blogs et tutoriels spécialisés. D'autres sources "de haute qualité", aux licences compatibles et filtrées pour écarter toute information sensible, ont également été mises à contribution.

Au total, ce sont quelque 6300 milliards de tokens (ces unités textuelles facilement assimilables par les IA) qui ont servi à entraîner les modèles AFM. Un volume conséquent, bien qu'inférieur aux 15000 milliards utilisés par Meta pour son modèle phare Llama 3.1 405B.

Affiner les modèles et écarter les comportements indésirables

En complément, Apple a eu recours à des données issues de retours humains et à des données synthétiques pour peaufiner ses modèles et tenter d'en éliminer les comportements indésirables comme la génération de contenus toxiques. Tout cela avec l'ambition de créer des outils "ancrés dans les valeurs fondamentales d'Apple et guidés par ses principes d'IA responsable à chaque étape".

Une transparence mesurée

Si le document technique publié par Apple ne révèle pas de détails fracassants, il a le mérite d'apporter un éclairage sur les coulisses du développement de ses IA. Une transparence bienvenue, même si l'entreprise reste prudente, soucieuse de préserver ses secrets industriels et d'éviter tout faux pas juridique alors que les questions de propriété intellectuelle et de « fair use » agitent le secteur.

Les utilisateurs gardent le contrôle

Notons qu'Apple permet aux webmasters de bloquer l'indexation de leurs contenus par Applebot. Une parade encore insuffisante pour protéger les créations des artistes et autres professionnels dont les œuvres sont hébergées sur des plateformes tierces ne proposant pas cette option. Gageons que les prochains mois verront émerger de nouvelles solutions, techniques ou juridiques, pour trouver un équilibre entre le besoin de données des IA et le respect des droits des créateurs.

D'ici là, Apple semble déterminé à tracer sa route, en misant sur une approche qu'il veut exemplaire et conforme à son image de gardien de la vie privée. Une stratégie qui sera sans nul doute scrutée de près, alors que la course à l'IA responsable ne fait que commencer.

L’approche responsable d’Apple dans l’entraînement des modèles d’IA