juillet 6, 2024

Les Défis De La Tokenisation Dans l’IA Générative

Intelligence Artificielle, Technologie Avancée
3 min de lecture
Modifier l'Article
450 Vues
Steven Soarez
0 Comments

Fascinés par les prouesses des modèles d'IA générative comme GPT-4 ou MambaByte, nous oublions souvent un élément clé qui les sous-tend : la tokenisation. Ce procédé, qui découpe le texte en petites unités sémantiques appelées tokens, permet aux algorithmes de traiter efficacement de grandes quantités de données. Mais comme toute technologie, la tokenisation a ses limites et engendre des biais dont il faut avoir conscience.

Quand les tokens déroutent l'IA

Prenons un exemple simple. Pour un humain, les phrases "once upon a time" et "once upon a " sont sémantiquement identiques malgré l'espace en trop. Mais pas forcément pour un modèle d'IA ! En effet, selon comment le tokenizer les découpe, il peut interpréter différemment ces deux séquences en apparence anodines. Résultat : des outputs complètement différents pour une même intention.

La casse aussi pose problème. "Hello" et "HELLO" seront tokenisés différemment, comme s'il s'agissait de deux mots distincts. C'est pourquoi beaucoup de modèles échouent au "test de la majuscule". Les nombres ne sont pas épargnés, causant d'étranges erreurs de calcul.

Le casse-tête des langues non latines

Mais c'est avec les langues non latines que la tokenisation montre ses plus grandes limites. Car les tokenizers sont majoritairement conçus par et pour l'anglais. Dans les langues sans espaces comme le chinois ou le japonais, chaque caractère devient un token, rallongeant les séquences. Les langues agglutinantes comme le turc, elles, voient leurs mots hachés en morphèmes.

Une étude d'Oxford a montré qu'un modèle pouvait mettre deux fois plus de temps à réaliser une tâche dans une langue "peu token-efficace" par rapport à l'anglais.
- Yennie Jun, chercheuse IA chez Google DeepMind

Ce biais se répercute jusque dans la facturation de l'usage des modèles, au détriment des locuteurs de langues tokenisées de manière sous-optimale. Un constat contre-intuitif quand on sait que l'IA se veut inclusive et multilingue.

Repenser l'architecture des modèles

Pour dépasser ces limites, des chercheurs explorent des modèles travaillant directement sur les octets, sans tokenisation. C'est le cas de MambaByte, compétitif avec les transformers tout en étant moins sensible au bruit.

Mais ces alternatives, encore au stade expérimental, se heurtent au défi computationnel. Car pour l'instant, difficile pour un transformer de traiter de longues séquences sans exploser en complexité. La tokenisation apparaît encore comme un mal nécessaire.

L'avenir réside sans doute dans de nouvelles architectures de réseaux de neurones, plus à même d'ingérer des données brutes de manière efficace. Un défi stimulant pour les chercheurs en IA, dont les travaux détermineront les capacités des modèles de demain. Car au-delà d'un détail technique, la tokenisation cristallise des enjeux d'équité et de performance cruciaux pour démocratiser l'IA.

La tokenisation, rouage essentiel mais limitant de l'IA actuelle
Des biais liés à la langue et la casse source d'erreurs
Vers de nouvelles architectures de modèles sans tokens ?

Les Défis De La Tokenisation Dans l’IA Générative