Suite à l’annonce de la release de Gemini par Google cette semaine, et du bad-buzz qui a suivi sur la démo semi fakée du géant du numérique; il n’en reste pas moins que je suis surexcité quant à l’avènement de l’ère de la multimodalité (amorcée, entre autres, par GPT-4 Vision) dans le monde des foundation models, c’est-à-dire les modèles d’IA capables de réaliser des tâches dont le spectre est très général.
J’ai d’ailleurs hâte que Gemini soit disponible pour me faire une idée de ses capacités ! Que la com’ de Google ait été ratée n’est pas la question, toutes les entreprises majeures de la tech, la Recherche, ainsi que la communauté open-source, sont engagées dans une course effrénée vers l’AGI (Artificial General Intelligence), qui en effraie certains et en grisent d’autres (je fais partie de la 2ème catégorie). Le nouveau Graal est la multimodalité.
Ainsi, que les capacités du modèle soient un franc-succès ou pas, la démarche de créer un modèle multi-modal dans son architecture est le précurseur d’inventions extraordinaires à mon sens. Comme je l’ai répété à l’envi à mes collègues cette semaine, j’ai l’impression d’être comme le contemporain d’Edison ou de Tesla, qui découvrait, à l’époque des premières innovations électriques, avec des yeux ébahis, l’avènement d’un miracle technologique qui allait changer la face du Monde.
Cela dit, vous risquez peut-être être lassés du terme « multi-modal », répété à chaque paragraphe depuis le début de cet article, alors commençons par là !
Qu’est-ce que la multimodalité ?
Une modalité, pour un modèle d’IA, fait tout simplement référence au type de données passé en entrée au modèle; par exemple, GPT-4, était à ses débuts unimodal, c’est-à-dire qu’il n’était capable « que » de comprendre le texte entré en input par l’utilisateur pour pouvoir générer son output. Depuis une composante « Vision » a été donnée au modèle et il est devenu multimodal, c’est-à-dire que des données de plusieurs types (ici texte et images) peuvent lui être passées, on peut maintenant lui envoyer des images. C’est ce qui permet aujourd’hui la description de photos par GPT-4.
C’est pourquoi, vous le remarquerez dans le titre de cet article, je ne parle pas de LLM (Large Language Model) mais bien de LMM (Large Multimodal Model). Ce qui me fait penser que la release de Gemini pourrait bien être une date à marquer d’une pierre blanche dans l’évolution de l’IA, c’est que Google propose déjà une fonctionnalité d’embeddings multi-modaux accessible programmatiquement depuis les APIs du GCP.
Embeddings ? Hein ?
Commençons par le terme embedding: ce terme fait référence à une manière de représenter de la donnée sous la forme vectorielle. Si vous êtes comme moi, et que vous avez dormi pendant le cours de Math au lycée, un vecteur est tout simplement une manière de représenter des points et la direction qu’ils prennent dans un espace à n dimensions.
Par exemple, on va considérer sur un plan à deux dimensions deux vecteurs:
Ainsi, tout
Articles similaires
Newsletter
Recevez nos meilleurs articles chaque mois.
Pour aller plus loin
Template Ultime pour Vidéos IA - Guide Complet
Template Ultime pour Vidéos IA - Guide Complet 📋 Table des Matières Plateformes IA Disponibles Le Template Complet Guide des Paramètres Vidéo Bibli...
ArticleLa Matrice des Agents : Votre Guide Ultime de Prompts pour l'IA
La Matrice des Agents : Votre Guide Ultime de Prompts pour l'IA Ce guide fournit une collection complète de prompts prêts à l'emploi, conçus pour ...
ArticleTemplate Ultime pour Prompts IA - Guide Complet
Template Ultime pour Prompts IA - Guide Complet 📋 Table des Matières Le Template Complet Guide des Paramètres Bibliothèque d'Options Exemples d'Uti...
ArticleDiscours par niveau de maturité
Le sujet de l'IA est déjà très complexe car il y a mille et une façons de pouvoir l'aborder : Impact sur notre société, Impact sur le monde profes...
ArticleQu’est-ce que Duet AI ?
Je donne en ce moment à la CCI de Strasbourg sur un sujet qui n’est pas directement lié à l’IA, en apparence: déployer des applications en mode Dev...
ArticleLes différentes types d'IA
Récemment, j'ai eu l'occasion de lire une BD dessinée en 2019, Intelligences Artificielles: Miroirs de nos vies, qui abordait par des concepts...