décembre 3, 2024

Amazon Dévoile Nova, une Gamme de Modèles IA Multimodaux

Intelligence Artificielle, Technologie Avancée
5 min de lecture
Modifier l'Article
914 Vues
Steven Soarez
0 Comments

Lors de sa conférence re:Invent mardi, Amazon Web Services (AWS), la division cloud computing d'Amazon, a dévoilé une nouvelle famille de modèles génératifs d'IA multimodaux baptisée Nova. Cette annonce marque une avancée majeure dans le domaine de l'intelligence artificielle, offrant des perspectives inédites pour le traitement et la génération de contenus variés.

Quatre modèles Nova pour révolutionner l'IA générative

La gamme Nova se compose de quatre modèles génératifs de texte : Micro, Lite, Pro et Premier. Si les trois premiers sont d'ores et déjà accessibles aux clients AWS, Premier sera disponible début 2025 selon Andy Jassy, le CEO d'Amazon. Ces modèles, optimisés pour 15 langues mais principalement l'anglais, se distinguent par leur taille et leurs capacités :

Nova Micro : rapidité et agilité

Micro se limite au traitement et à la génération de texte, mais offre la latence la plus faible de la gamme, assurant un traitement ultra-rapide des requêtes.

Nova Lite et Pro : polyvalence multimodale

Lite et Pro peuvent quant à eux analyser du texte, des images et des vidéos avec une vitesse et une précision remarquables. Ils excellent dans des tâches comme la synthèse de documents, le résumé de graphiques, de réunions ou de diagrammes.

Nova Premier : le nec plus ultra des modèles "frontier"

Enfin, Premier se positionne comme le modèle le plus avancé, conçu pour les charges de travail complexes. AWS le destine davantage à servir de modèle "professeur" pour créer des modèles personnalisés qu'à être utilisé directement.

"Nous avons continué à travailler sur nos propres modèles frontier, et ces modèles ont fait d'énormes progrès au cours des 4 à 5 derniers mois. Nous nous sommes dit que si nous en tirions de la valeur, vous en tireriez probablement aussi."
– Andy Jassy, CEO d'Amazon

Des capacités de traitement inégalées

Micro peut traiter jusqu'à 100 000 mots grâce à sa fenêtre de contexte de 128 000 tokens. Lite et Pro, avec leurs 300 000 tokens, absorbent environ 225 000 mots, 15 000 lignes de code ou 30 minutes de vidéo. Début 2025, certains modèles Nova pourront même gérer plus de 2 millions de tokens, soit l'équivalent d'un roman entier !

Selon Andy Jassy, les modèles Nova figurent parmi les plus rapides et les moins chers de leur catégorie. Disponibles sur AWS Bedrock, la plateforme de développement IA d'Amazon, ils peuvent être affinés sur du texte, des images et des vidéos, puis distillés pour gagner en vitesse et en efficacité.

Canvas et Reel : des IA ultra-créatives

Au-delà des modèles texte, AWS a également lancé le modèle de génération d'images Canvas et le générateur de vidéos Reel. Canvas permet de créer et retoucher des images à partir de prompts, en contrôlant les couleurs et la mise en page. Reel peut quant à lui produire des vidéos de 6 secondes à partir de prompts ou d'images de référence, avec des options de mouvement de caméra comme le panoramique, la rotation à 360° ou le zoom. Une version capable de générer des vidéos de 2 minutes est prévue.

Canvas étend les images existantes ou insère des objets dans des scènes.
Reel produit des vidéos avec des mouvements de caméra personnalisables.
Des garde-fous éthiques sont intégrés pour une utilisation responsable.

Andy Jassy a insisté sur les contrôles "intégrés" de Canvas et Reel pour une utilisation responsable, comme le watermarking et la modération de contenu, afin de limiter la génération de contenus préjudiciables. AWS reste néanmoins vague sur les données d'entraînement exactes de ses modèles génératifs, invoquant le secret industriel.

Vers des modèles speech-to-speech et any-to-any

AWS prévoit aussi de lancer un modèle speech-to-speech au premier trimestre 2025, capable de transformer de la parole en une nouvelle version en interprétant les signaux verbaux et non verbaux comme le ton et la cadence, pour des voix ultra-naturelles. Puis, un modèle révolutionnaire "any-to-any" verra le jour mi-2025 selon Andy Jassy, acceptant en entrée texte, parole, images ou vidéos pour générer du texte, de la parole, des images ou des vidéos. De quoi donner vie à des traducteurs, éditeurs de contenu ou assistants IA d'un nouveau genre !

"C'est ainsi que les modèles frontier seront construits et utilisés à l'avenir."
– Andy Jassy, à propos du modèle any-to-any

Avec Nova, Amazon Web Services franchit un nouveau cap dans l'IA générative multimodale. En permettant de traiter et générer du texte, des images et des vidéos avec une flexibilité inédite, ces modèles ouvrent un champ des possibles immense pour les applications IA. Des résumés de réunions générés automatiquement à la création de contenu multimédia personnalisé, en passant par des agents conversationnels ultra-réalistes, nul doute que Nova saura trouver sa place dans de nombreux secteurs. L'avenir de l'IA s'annonce plus passionnant que jamais !

Amazon Dévoile Nova, une Gamme de Modèles IA Multimodaux