Qu'est-ce que Zero Shot Learning et comment peut-il améliorer l'IA

Points Clés à Retenir

La capacité de généralisation est cruciale dans l'apprentissage profond pour assurer la précision des prédictions face à de nouvelles données. L'apprentissage zéro-shot facilite cette généralisation en permettant à l'IA d'exploiter les connaissances existantes pour prédire des classes inédites sans nécessiter de données d'entraînement étiquetées.
L'apprentissage zéro-shot s'inspire du processus d'apprentissage humain. En fournissant des informations sémantiques additionnelles, un modèle pré-entraîné peut identifier avec précision de nouvelles catégories, à l'instar d'un individu apprenant à reconnaître une guitare acoustique à partir de ses caractéristiques.
L'apprentissage zéro-shot améliore les performances de l'IA en favorisant la généralisation, l'évolutivité, en réduisant le surapprentissage et en optimisant les coûts. Il permet de former des modèles sur des ensembles de données plus vastes, d'acquérir des connaissances par transfert d'apprentissage, d'améliorer la compréhension contextuelle et de réduire le besoin en données étiquetées. L'apprentissage zéro-shot devient une technique incontournable pour relever les défis complexes dans divers domaines à mesure que l'IA évolue.

Un objectif primordial de l'apprentissage profond est de développer des modèles capables de généraliser leurs connaissances. La généralisation est indispensable car elle garantit que le modèle a saisi des schémas significatifs et peut réaliser des prédictions ou prendre des décisions fiables face à des données nouvelles. Cependant, l'entraînement de ces modèles exige souvent d'importantes quantités de données étiquetées, ce qui peut s'avérer onéreux, chronophage et parfois même impossible.

L'apprentissage zéro-shot est une solution pour pallier cette contrainte, permettant à l'IA d'utiliser ses connaissances existantes pour effectuer des prédictions précises même sans données étiquetées.

Qu'est-ce que l'apprentissage Zero-Shot?

L'apprentissage zéro-shot est une technique spécifique d'apprentissage par transfert. Il vise à utiliser un modèle pré-entraîné pour identifier des catégories nouvelles en fournissant des informations complémentaires qui décrivent les spécificités de la nouvelle catégorie.

En exploitant les connaissances générales d'un modèle sur certains sujets, et en lui fournissant des informations sémantiques sur les caractéristiques à rechercher, il devient capable d'identifier le sujet avec une précision remarquable.

Imaginons que nous devions identifier un zèbre, mais que nous ne disposions pas d'un modèle d'identification pour cet animal. Nous pourrions alors utiliser un modèle pré-entraîné pour identifier les chevaux et lui indiquer que les chevaux à rayures noires et blanches sont des zèbres. Lors de l'inférence, le modèle serait en mesure de distinguer les zèbres des chevaux avec un niveau de précision élevé.

Comme de nombreuses techniques d'apprentissage profond, l'apprentissage zéro-shot imite le processus d'apprentissage et de traitement des informations par les humains. Nous sommes en effet des apprenants naturels. Si vous deviez chercher une guitare acoustique dans un magasin de musique, il pourrait être difficile d'identifier rapidement le modèle souhaité. Cependant, si on vous indique qu'une guitare acoustique est caractérisée par des ouïes en forme de "f", vous seriez en mesure de l'identifier immédiatement.

Prenons un exemple concret en utilisant l'application de classification zéro-shot disponible sur la plateforme open source LLM Hugging Face, en utilisant le modèle clip-vit-large.

Cette image montre du pain dans un sac de courses attaché à une chaise haute. Le modèle, ayant été entraîné sur un vaste ensemble de données d'images, est capable d'identifier chaque élément de la photo, tels que le pain, les produits d'épicerie, la chaise et les ceintures de sécurité.

Maintenant, nous souhaitons que le modèle classe l'image en utilisant des catégories inédites, telles que "Pain détendu", "Pain en sécurité", "Pain assis", "Épicerie au volant" et "Épicerie en sécurité".

Notons que nous avons choisi délibérément des catégories et des images inhabituelles pour illustrer l'efficacité de la classification zéro-shot.

Après l'inférence, le modèle a pu déterminer avec une confiance d'environ 80% que la catégorie la plus appropriée pour l'image est "Pain en sécurité", probablement parce qu'il associe la chaise haute à la sécurité plutôt qu'à la détente ou à la conduite.

Impressionnant ! Je suis personnellement en accord avec le résultat du modèle. Mais comment le modèle parvient-il à un tel résultat? Voici un aperçu du fonctionnement de l'apprentissage zéro-shot.

Comment fonctionne l'apprentissage Zero-Shot?

L'apprentissage zéro-shot permet à un modèle pré-entraîné d'identifier de nouvelles catégories sans données étiquetées. Il se déroule généralement en trois étapes :

1. Préparation

L'apprentissage zéro-shot commence par la préparation de trois types de données :

Catégories connues: Les données utilisées pour l'entraînement du modèle pré-entraîné. Ces catégories sont déjà familières au modèle. Les modèles les plus performants pour l'apprentissage zéro-shot sont ceux qui ont été entraînés sur des catégories proches de celles que le modèle doit identifier.
Catégories inconnues/nouvelles : Données n'ayant jamais été utilisées pour l'entraînement du modèle. Ces données doivent être fournies par l'utilisateur, car elles ne sont pas connues du modèle.
Données sémantiques/auxiliaires : Des informations supplémentaires qui aident le modèle à identifier la nouvelle catégorie. Il peut s'agir de mots, d'expressions, d'incorporations de mots ou de noms de classes.

2. Cartographie sémantique

L'étape suivante consiste à cartographier les caractéristiques de la catégorie inconnue. Cela se fait en créant des intégrations de mots et en établissant une carte sémantique qui relie les attributs de la catégorie inconnue aux données auxiliaires fournies. L'apprentissage par transfert facilite le processus, car de nombreux attributs liés à la catégorie inconnue ont déjà été cartographiés.

3. Inférence

L'inférence consiste à utiliser le modèle pour générer des prédictions. Dans la classification d'images zéro-shot, des intégrations de mots sont générées à partir de l'image d'entrée, puis comparées aux données auxiliaires. Le niveau de confiance dépend de la similarité entre les données d'entrée et les données auxiliaires.

Comment l'apprentissage Zero-Shot améliore l'IA?

L'apprentissage zéro-shot améliore les modèles d'IA en répondant à plusieurs défis de l'apprentissage automatique :

Amélioration de la généralisation: En réduisant la dépendance aux données étiquetées, les modèles peuvent être entraînés sur des ensembles de données plus vastes, améliorant ainsi leur capacité de généralisation et les rendant plus robustes et fiables. À mesure que les modèles gagnent en expérience et en généralisation, ils pourraient même être capables d'apprendre le sens commun, au lieu de simplement analyser les informations de manière superficielle.
Évolutivité: Les modèles peuvent être continuellement entraînés et acquérir de nouvelles connaissances grâce à l'apprentissage par transfert. Les entreprises et les chercheurs peuvent améliorer en permanence leurs modèles pour obtenir de meilleures performances.
Réduction du risque de surapprentissage: Le surapprentissage peut se produire lorsque le modèle est entraîné sur un petit ensemble de données qui ne représente pas toutes les entrées possibles. L'entraînement par l'apprentissage zéro-shot réduit ce risque en permettant au modèle de développer une meilleure compréhension contextuelle.
Rentabilité: La création de grandes quantités de données étiquetées peut être coûteuse et chronophage. L'apprentissage par transfert zéro-shot permet de créer des modèles robustes avec moins de temps et de données étiquetées.

Les techniques telles que l'apprentissage zéro-shot deviendront de plus en plus importantes à mesure que l'IA continue de progresser.

L'avenir de l'apprentissage Zero-Shot

L'apprentissage zéro-shot est devenu un élément clé de l'apprentissage automatique. Il permet aux modèles de reconnaître et de classer de nouvelles catégories sans entraînement spécifique. Grâce aux progrès continus des architectures de modèles, des approches basées sur les attributs et de l'intégration multimodale, l'apprentissage zéro-shot est un facteur clé pour rendre les modèles plus adaptables et capables de relever des défis complexes dans des domaines tels que la robotique, la santé et la vision par ordinateur.