Les Défis De La Tokenisation Dans l’IA Générative

Accueil - Technologies et Avenirs - Intelligence Artificielle - Les Défis De La Tokenisation Dans l’IA Générative
Les Défis De La Tokenisation Dans lIA Générative   Innovationsfr
juillet 6, 2024

Les Défis De La Tokenisation Dans l’IA Générative

Fascinés par les prouesses des modèles d'IA générative comme GPT-4 ou MambaByte, nous oublions souvent un élément clé qui les sous-tend : la tokenisation. Ce procédé, qui découpe le texte en petites unités sémantiques appelées tokens, permet aux algorithmes de traiter efficacement de grandes quantités de données. Mais comme toute technologie, la tokenisation a ses limites et engendre des biais dont il faut avoir conscience.

Quand les tokens déroutent l'IA

Prenons un exemple simple. Pour un humain, les phrases "once upon a time" et "once upon a " sont sémantiquement identiques malgré l'espace en trop. Mais pas forcément pour un modèle d'IA ! En effet, selon comment le tokenizer les découpe, il peut interpréter différemment ces deux séquences en apparence anodines. Résultat : des outputs complètement différents pour une même intention.

La casse aussi pose problème. "Hello" et "HELLO" seront tokenisés différemment, comme s'il s'agissait de deux mots distincts. C'est pourquoi beaucoup de modèles échouent au "test de la majuscule". Les nombres ne sont pas épargnés, causant d'étranges erreurs de calcul.

Le casse-tête des langues non latines

Mais c'est avec les langues non latines que la tokenisation montre ses plus grandes limites. Car les tokenizers sont majoritairement conçus par et pour l'anglais. Dans les langues sans espaces comme le chinois ou le japonais, chaque caractère devient un token, rallongeant les séquences. Les langues agglutinantes comme le turc, elles, voient leurs mots hachés en morphèmes.

Une étude d'Oxford a montré qu'un modèle pouvait mettre deux fois plus de temps à réaliser une tâche dans une langue "peu token-efficace" par rapport à l'anglais.

- Yennie Jun, chercheuse IA chez Google DeepMind

Ce biais se répercute jusque dans la facturation de l'usage des modèles, au détriment des locuteurs de langues tokenisées de manière sous-optimale. Un constat contre-intuitif quand on sait que l'IA se veut inclusive et multilingue.

Repenser l'architecture des modèles

Pour dépasser ces limites, des chercheurs explorent des modèles travaillant directement sur les octets, sans tokenisation. C'est le cas de MambaByte, compétitif avec les transformers tout en étant moins sensible au bruit.

Mais ces alternatives, encore au stade expérimental, se heurtent au défi computationnel. Car pour l'instant, difficile pour un transformer de traiter de longues séquences sans exploser en complexité. La tokenisation apparaît encore comme un mal nécessaire.

L'avenir réside sans doute dans de nouvelles architectures de réseaux de neurones, plus à même d'ingérer des données brutes de manière efficace. Un défi stimulant pour les chercheurs en IA, dont les travaux détermineront les capacités des modèles de demain. Car au-delà d'un détail technique, la tokenisation cristallise des enjeux d'équité et de performance cruciaux pour démocratiser l'IA.

  • La tokenisation, rouage essentiel mais limitant de l'IA actuelle
  • Des biais liés à la langue et la casse source d'erreurs
  • Vers de nouvelles architectures de modèles sans tokens ?
Partager:

Ajouter Un Commentaire

Chercher

Étiquettes

abus technologie Accord OpenAI Apple accélérateur innovation santé accélérateur startup accélérateur startups Acquisition start-up acquisition stratégique Amazon actions fintech addiction réseaux sociaux adoption IA générative adoption intelligence artificielle all4pack emballages durables innovations packaging écoconception économie circulaire Alphabet financement Andreessen Horowitz Twitter influence réseaux sociaux capital risque autonomie véhicules électriques avenir IA générative avenir intelligence artificielle barquettes inox consigne réduction déchets Berny transition écologique BoJ politique monétaire relance économique achats d'obligations transition monétaire campus cybersécurité chiffres inflation commissaires vie privée confiance intelligence artificielle controverse Elon Musk crise financement startups cybersécurité web3 données personnelles défis start-ups défis véhicules autonomes Energie verte expansion internationale expérience utilisateur Géotechnique Décarbonation industrie Empreinte carbone Transition énergétique Prototype innovant IA conversationnelle Imagino levée de fonds marketing digital données clients expansion internationale Industrie du futur Relocalisation industrielle Transition écologique Startups deeptech Souveraineté technologique mobilité urbaine Radware Bot startup innovante startups innovantes transformation numérique transition énergétique Écosystème startup Innovation technologique Résilience entrepreneuriale Défis startups Croissance startup Canada économie circulaire énergies renouvelables

Beauty and lifestyle influencer

Follow my journey on all Social Media channels

Alienum phaedrum torquatos nec eu, vis detraxit periculis ex, nihilmei. Mei an pericula euripidis, hinc partem ei est.
facebook
5M+
Facebook followers
Follow Me
youtube
4.6M+
Youtube Subscribers
Subscribe Me
tiktok
7M+
Tiktok Followers
Follow Me
instagram
3.4M+
Instagram Followers
Follow Me