Les Défis De La Tokenisation Dans l’IA Générative

Accueil - Technologies et Avenirs - Intelligence Artificielle - Les Défis De La Tokenisation Dans l’IA Générative
Innovationsfr
juillet 6, 2024

Les Défis De La Tokenisation Dans l’IA Générative

Fascinés par les prouesses des modèles d'IA générative comme GPT-4 ou MambaByte, nous oublions souvent un élément clé qui les sous-tend : la tokenisation. Ce procédé, qui découpe le texte en petites unités sémantiques appelées tokens, permet aux algorithmes de traiter efficacement de grandes quantités de données. Mais comme toute technologie, la tokenisation a ses limites et engendre des biais dont il faut avoir conscience.

Quand les tokens déroutent l'IA

Prenons un exemple simple. Pour un humain, les phrases "once upon a time" et "once upon a " sont sémantiquement identiques malgré l'espace en trop. Mais pas forcément pour un modèle d'IA ! En effet, selon comment le tokenizer les découpe, il peut interpréter différemment ces deux séquences en apparence anodines. Résultat : des outputs complètement différents pour une même intention.

La casse aussi pose problème. "Hello" et "HELLO" seront tokenisés différemment, comme s'il s'agissait de deux mots distincts. C'est pourquoi beaucoup de modèles échouent au "test de la majuscule". Les nombres ne sont pas épargnés, causant d'étranges erreurs de calcul.

Le casse-tête des langues non latines

Mais c'est avec les langues non latines que la tokenisation montre ses plus grandes limites. Car les tokenizers sont majoritairement conçus par et pour l'anglais. Dans les langues sans espaces comme le chinois ou le japonais, chaque caractère devient un token, rallongeant les séquences. Les langues agglutinantes comme le turc, elles, voient leurs mots hachés en morphèmes.

Une étude d'Oxford a montré qu'un modèle pouvait mettre deux fois plus de temps à réaliser une tâche dans une langue "peu token-efficace" par rapport à l'anglais.

- Yennie Jun, chercheuse IA chez Google DeepMind

Ce biais se répercute jusque dans la facturation de l'usage des modèles, au détriment des locuteurs de langues tokenisées de manière sous-optimale. Un constat contre-intuitif quand on sait que l'IA se veut inclusive et multilingue.

Repenser l'architecture des modèles

Pour dépasser ces limites, des chercheurs explorent des modèles travaillant directement sur les octets, sans tokenisation. C'est le cas de MambaByte, compétitif avec les transformers tout en étant moins sensible au bruit.

Mais ces alternatives, encore au stade expérimental, se heurtent au défi computationnel. Car pour l'instant, difficile pour un transformer de traiter de longues séquences sans exploser en complexité. La tokenisation apparaît encore comme un mal nécessaire.

L'avenir réside sans doute dans de nouvelles architectures de réseaux de neurones, plus à même d'ingérer des données brutes de manière efficace. Un défi stimulant pour les chercheurs en IA, dont les travaux détermineront les capacités des modèles de demain. Car au-delà d'un détail technique, la tokenisation cristallise des enjeux d'équité et de performance cruciaux pour démocratiser l'IA.

  • La tokenisation, rouage essentiel mais limitant de l'IA actuelle
  • Des biais liés à la langue et la casse source d'erreurs
  • Vers de nouvelles architectures de modèles sans tokens ?
Partager:

Ajouter Un Commentaire

Chercher

Beauty and lifestyle influencer

Follow my journey on all Social Media channels

Alienum phaedrum torquatos nec eu, vis detraxit periculis ex, nihilmei. Mei an pericula euripidis, hinc partem ei est.
facebook
5M+
Facebook followers
Follow Me
youtube
4.6M+
Youtube Subscribers
Subscribe Me
tiktok
7M+
Tiktok Followers
Follow Me
instagram
3.4M+
Instagram Followers
Follow Me