Qu’est-ce que Zero Shot Learning et comment peut-il améliorer l’IA

Points clés à retenir

  • La généralisation est essentielle dans l’apprentissage profond pour garantir des prédictions précises avec de nouvelles données. L’apprentissage zéro permet d’y parvenir en permettant à l’IA d’utiliser les connaissances existantes pour faire des prédictions précises sur des classes nouvelles ou invisibles sans données étiquetées.
  • L’apprentissage zéro-shot imite la façon dont les humains apprennent et traitent les données. En fournissant des informations sémantiques supplémentaires, un modèle pré-entraîné peut identifier avec précision de nouvelles classes, tout comme un humain peut apprendre à identifier une guitare à corps creux en comprenant ses caractéristiques.
  • L’apprentissage zéro-shot améliore l’IA en améliorant la généralisation, l’évolutivité, en réduisant le surajustement et en étant rentable. Il permet aux modèles d’être formés sur des ensembles de données plus vastes, d’acquérir davantage de connaissances grâce à l’apprentissage par transfert, d’avoir une meilleure compréhension contextuelle et de réduire le besoin de données étiquetées étendues. À mesure que l’IA progresse, l’apprentissage sans tir deviendra encore plus important pour relever des défis complexes dans divers domaines.

L’un des principaux objectifs du deep learning est de former des modèles ayant acquis des connaissances généralisées. La généralisation est essentielle car elle garantit que le modèle a appris des modèles significatifs et peut faire des prédictions ou des décisions précises face à des données nouvelles ou invisibles. La formation de tels modèles nécessite souvent une quantité considérable de données étiquetées. Cependant, ces données peuvent être coûteuses, laborieuses et parfois impossibles.

L’apprentissage zéro-shot est mis en œuvre pour combler cette lacune, permettant à l’IA d’utiliser ses connaissances existantes pour faire des prédictions assez précises malgré le manque de données étiquetées.

Qu’est-ce que l’apprentissage Zero-Shot ?

L’apprentissage zéro-shot est un type spécifique de technique d’apprentissage par transfert. Il se concentre sur l’utilisation d’un modèle pré-entraîné pour identifier des classes nouvelles ou inédites simplement en fournissant des informations supplémentaires décrivant les détails de la nouvelle classe.

En utilisant les connaissances générales d’un modèle sur certains sujets et en lui donnant une sémantique supplémentaire sur ce qu’il faut rechercher, il devrait être capable d’identifier assez précisément le sujet qu’il est chargé d’identifier.

Disons que nous devons identifier un zèbre. Cependant, nous ne disposons pas d’un modèle permettant d’identifier de tels animaux. Ainsi, nous obtenons un modèle préexistant formé pour identifier les chevaux et lui dire que les chevaux à rayures noires et blanches sont des zèbres. Lorsque nous commençons à inférer le modèle en fournissant des images de zèbres et de chevaux, il y a de fortes chances que le modèle identifie correctement chaque animal.

Comme de nombreuses techniques d’apprentissage profond, l’apprentissage zéro imite la façon dont les humains apprennent et traitent les données. Les humains sont connus pour être des apprenants naturels. Si vous deviez trouver une guitare à corps creux dans un magasin de musique, vous pourriez avoir du mal à en rechercher une. Mais une fois que je vous dirai qu’un corps creux est essentiellement une guitare avec un trou en forme de F sur un ou deux côtés, vous en trouverez probablement un immédiatement.

Pour un exemple concret, utilisons l’application de classification zéro-shot du site d’hébergement open source LLM Hugging Face en utilisant le modèle clip-vit-large.

Cette photo montre du pain dans un sac d’épicerie attaché à une chaise haute. Étant donné que le modèle a été formé sur un vaste ensemble de données d’images, il peut probablement identifier chaque élément de la photo, comme le pain, les produits d’épicerie, les chaises et les ceintures de sécurité.

Maintenant, nous voulons que le modèle classe l’image en utilisant des classes inédites. Dans ce cas, les classes nouvelles ou inédites seraient « Pain détendu », « Pain sûr », « Pain assis », « Épicerie au volant » et « Épicerie sûre ».

Notez que nous avons délibérément utilisé des classes et des images inhabituelles et invisibles pour démontrer l’efficacité de la classification zéro-shot sur une image.

Après avoir déduit le modèle, il a été possible de classer avec environ 80 % de certitude que la classification la plus appropriée pour l’image était « Pain sûr ». Cela est probablement dû au fait que le modèle pense qu’une chaise haute est plus destinée à la sécurité qu’à s’asseoir, à se détendre ou à conduire.

Génial! Je serais personnellement d’accord avec le résultat du modèle. Mais comment exactement le modèle a-t-il abouti à un tel résultat ? Voici une vision générale du fonctionnement de l’apprentissage sans tir.

Comment fonctionne l’apprentissage Zero-Shot

L’apprentissage sans tir peut aider un modèle pré-entraîné à identifier de nouvelles classes sans fournir de données étiquetées. Dans sa forme la plus simple, l’apprentissage zéro-shot se fait en trois étapes :

1. Préparation

L’apprentissage zéro-shot commence par la préparation de trois types de données

  • Classe vue : données utilisées dans la formation du modèle pré-entraîné. Le modèle propose déjà des classes vues. Les meilleurs modèles pour l’apprentissage sans tir sont les modèles formés sur des classes étroitement liées à la nouvelle classe que vous souhaitez que le modèle identifie.
  • Classe invisible/nouvelle : données qui n’ont jamais été utilisées lors de la formation du modèle. Vous devrez gérer ces données vous-même puisque vous ne pouvez pas les obtenir à partir du modèle.
  • Données sémantiques/auxiliaires : bits de données supplémentaires qui peuvent aider le modèle à identifier la nouvelle classe. Il peut s’agir de mots, d’expressions, d’incorporations de mots ou de noms de classe.

2. Cartographie sémantique

L’étape suivante consiste à cartographier les caractéristiques de la classe invisible. Cela se fait en créant des intégrations de mots et en créant une carte sémantique qui relie les attributs ou les caractéristiques de la classe invisible aux données auxiliaires fournies. L’apprentissage par transfert de l’IA rend le processus beaucoup plus rapide, car de nombreux attributs liés à la classe invisible ont déjà été cartographiés.

3. Inférence

L’inférence est l’utilisation du modèle pour générer des prédictions ou des résultats. Dans la classification d’images sans prise de vue, des intégrations de mots sont générées sur l’entrée d’image donnée, puis tracées et comparées aux données auxiliaires. Le niveau de certitude dépendra de la similarité entre les données d’entrée et les données auxiliaires fournies.

Comment l’apprentissage Zero-Shot améliore l’IA

L’apprentissage zéro-shot améliore les modèles d’IA en relevant plusieurs défis de l’apprentissage automatique, notamment :

  • Généralisation améliorée : réduire la dépendance à l’égard des données étiquetées permet aux modèles d’être formés sur des ensembles de données plus vastes, améliorant ainsi la généralisation et rendant le modèle plus robuste et fiable. À mesure que les modèles deviennent plus expérimentés et généralisés, il peut même être possible pour eux d’apprendre le bon sens plutôt que la manière habituelle d’analyser les informations.
  • Évolutivité : les modèles peuvent être continuellement formés et acquérir davantage de connaissances grâce à l’apprentissage par transfert. Les entreprises et les chercheurs indépendants peuvent continuellement améliorer leurs modèles pour être plus performants à l’avenir.
  • Risque réduit de surajustement : un surajustement peut se produire en raison de l’entraînement du modèle sur un petit ensemble de données qui ne contient pas suffisamment de variété pour représenter toutes les entrées possibles. Entraîner le modèle via un apprentissage zéro-shot réduit les risques de surajustement en entraînant le modèle pour avoir une meilleure compréhension contextuelle des sujets.
  • Rentable : fournir une grande quantité de données étiquetées peut prendre du temps et des ressources. Grâce à l’apprentissage par transfert zéro, la formation d’un modèle robuste peut être réalisée avec beaucoup moins de temps et de données étiquetées.

À mesure que l’IA progresse, des techniques telles que l’apprentissage sans tir deviendront encore plus importantes.

L’avenir de l’apprentissage Zero-Shot

L’apprentissage zéro-shot est devenu un élément essentiel de l’apprentissage automatique. Il permet aux modèles de reconnaître et de classer de nouvelles classes sans formation explicite. Grâce aux progrès continus des architectures de modèles, des approches basées sur les attributs et de l’intégration multimodale, l’apprentissage sans tir peut contribuer de manière significative à rendre les modèles beaucoup plus adaptables pour relever des défis complexes dans les domaines de la robotique, des soins de santé et de la vision par ordinateur.