IA10 min de lecture

Embeddings ? Hein ?

Yacine TOUATI

28 février 2024

Suite à l’annonce de la release de Gemini par Google cette semaine, et du bad-buzz qui a suivi sur la démo semi fakée du géant du numérique; il n’en reste pas moins que je suis surexcité quant à l’avènement de l’ère de la multimodalité (amorcée, entre autres, par GPT-4 Vision) dans le monde des foundation models, c’est-à-dire les modèles d’IA capables de réaliser des tâches dont le spectre est très général.

J’ai d’ailleurs hâte que Gemini soit disponible pour me faire une idée de ses capacités ! Que la com’ de Google ait été ratée n’est pas la question, toutes les entreprises majeures de la tech, la Recherche, ainsi que la communauté open-source, sont engagées dans une course effrénée vers l’AGI (Artificial General Intelligence), qui en effraie certains et en grisent d’autres (je fais partie de la 2ème catégorie). Le nouveau Graal est la multimodalité.

Ainsi, que les capacités du modèle soient un franc-succès ou pas, la démarche de créer un modèle multi-modal dans son architecture est le précurseur d’inventions extraordinaires à mon sens. Comme je l’ai répété à l’envi à mes collègues cette semaine, j’ai l’impression d’être comme le contemporain d’Edison ou de Tesla, qui découvrait, à l’époque des premières innovations électriques, avec des yeux ébahis, l’avènement d’un miracle technologique qui allait changer la face du Monde.

Cela dit, vous risquez peut-être être lassés du terme « multi-modal », répété à chaque paragraphe depuis le début de cet article, alors commençons par là !

Qu’est-ce que la multimodalité ?

Une modalité, pour un modèle d’IA, fait tout simplement référence au type de données passé en entrée au modèle; par exemple, GPT-4, était à ses débuts unimodal, c’est-à-dire qu’il n’était capable « que » de comprendre le texte entré en input par l’utilisateur pour pouvoir générer son output. Depuis une composante « Vision » a été donnée au modèle et il est devenu multimodal, c’est-à-dire que des données de plusieurs types (ici texte et images) peuvent lui être passées, on peut maintenant lui envoyer des images. C’est ce qui permet aujourd’hui la description de photos par GPT-4.

C’est pourquoi, vous le remarquerez dans le titre de cet article, je ne parle pas de LLM (Large Language Model) mais bien de LMM (Large Multimodal Model). Ce qui me fait penser que la release de Gemini pourrait bien être une date à marquer d’une pierre blanche dans l’évolution de l’IA, c’est que Google propose déjà une fonctionnalité d’embeddings multi-modaux accessible programmatiquement depuis les APIs du GCP.

Embeddings ? Hein ?

Commençons par le terme embedding: ce terme fait référence à une manière de représenter de la donnée sous la forme vectorielle. Si vous êtes comme moi, et que vous avez dormi pendant le cours de Math au lycée, un vecteur est tout simplement une manière de représenter des points et la direction qu’ils prennent dans un espace à n dimensions.

Par exemple, on va considérer sur un plan à deux dimensions deux vecteurs:

Ainsi, tout

#ia #embeddings #nlp #machine-learning

Pour aller plus loin

Article

Embeddings ? Hein ?

Articles similaires

Template Ultime pour Vidéos IA - Guide Complet

La Matrice des Agents : Votre Guide Ultime de Prompts pour l'IA

Template Ultime pour Prompts IA - Guide Complet

Newsletter

Pour aller plus loin

Template Ultime pour Vidéos IA - Guide Complet

La Matrice des Agents : Votre Guide Ultime de Prompts pour l'IA

Template Ultime pour Prompts IA - Guide Complet

Discours par niveau de maturité

Qu’est-ce que Duet AI ?

Les différentes types d'IA