2022-08-16 07:08 Temps de lecture : 21 min

Tout ce que tu as besoin de savoir

Google Colab démocratise l'accès à la science des données, l'apprentissage profond, les réseaux neuronaux et l'apprentissage automatique, offrant aux chercheurs individuels une alternative aux infrastructures de calcul coûteuses.

L'apprentissage automatique et la science des données représentent les deux domaines technologiques phares où les informaticiens de la nouvelle génération aspirent à exceller. De nombreuses ressources pédagogiques, telles que des cours en ligne, des conférences gratuites et des guides pratiques, sont disponibles pour maîtriser ces disciplines.

Cependant, la mise en pratique sur des projets peut s'avérer contraignante en raison des besoins en puissance de calcul. Google Colaboratory, ou Colab, apporte une solution efficace à ce défi. Découvrez notre analyse complète de Google Colab ci-dessous.

Qu'est-ce que Google Colab ?

Colab est un environnement de type Jupyter Notebook développé par Google Research. Il permet aux développeurs Python d'écrire et d'exécuter du code directement depuis un navigateur web.

En résumé, Colab est une version hébergée dans le cloud de Jupyter Notebook. Son avantage majeur réside dans l'absence de nécessité d'installation ou de mise à niveau de votre matériel informatique pour répondre aux exigences de traitement intensif des calculs Python. De plus, Colab donne accès gratuitement à une infrastructure puissante incluant stockage, mémoire, capacité de traitement, unités de traitement graphique (GPU) et unités de traitement tensoriel (TPU).

Google a conçu cet outil de programmation Python basé sur le cloud en pensant aux besoins spécifiques des programmeurs en apprentissage automatique, des analystes de données, des scientifiques des données, des chercheurs en IA et des étudiants en Python.

L'un des principaux atouts de Colab est sa capacité à réunir tous les éléments nécessaires à la présentation d'un projet complet d'apprentissage automatique ou de science des données. Votre bloc-notes Colab peut ainsi inclure des codes exécutables, du code Python interactif, du texte enrichi, des éléments HTML et LaTeX, des images, des visualisations de données, des graphiques, des tableaux, etc.

Que permet Google Colab ?

Google Colab est une adaptation en ligne de l'environnement Jupyter Notebook. Alors que ce dernier nécessite une installation locale et dépend des ressources de votre ordinateur, Colab est une application cloud entièrement dédiée au développement Python.

Vous pouvez écrire du code Python avec Colab directement dans votre navigateur web, qu'il s'agisse de Google Chrome ou Mozilla Firefox. L'exécution de ce code se fait également au sein du navigateur, sans environnement d'exécution ou interface de ligne de commande supplémentaires.

Colab offre également des fonctionnalités avancées pour améliorer la présentation de vos cahiers de projets Python. Vous pouvez notamment y inclure des équations mathématiques, des graphiques, des tableaux, des images et d'autres visuels. La génération de visualisations de données à partir du code Python est également supportée.

De plus, Colab facilite la réutilisation de vos fichiers Jupyter Notebook depuis GitHub. Vous pouvez également importer des projets d'apprentissage automatique et de science des données depuis d'autres sources. Colab traite efficacement les ressources importées pour garantir un code Python propre et exempt d'erreurs.

Principales fonctionnalités de Google Colab

GPU et TPU

Les utilisateurs de la version gratuite de Colab bénéficient d'un accès gratuit aux environnements d'exécution GPU et TPU, limité à 12 heures. L'environnement GPU est doté d'un processeur Intel Xeon à 2,20 GHz, 13 Go de RAM, un accélérateur Tesla K80 et 12 Go de VRAM GDDR5.

L'environnement TPU comprend un processeur Intel Xeon à 2,30 GHz, 13 Go de RAM et un TPU cloud avec une puissance de calcul de 180 téraflops.

Avec Colab Pro ou Pro+, vous pouvez accéder à davantage de processeurs, TPU et GPU pour une durée supérieure à 12 heures.

Partage de notebooks

Le partage de notebooks Python est devenu simple grâce à Colab. Vous pouvez créer des liens partageables pour les fichiers Colab enregistrés sur votre Google Drive. Il vous suffit ensuite de partager le lien avec les personnes souhaitant collaborer avec vous. Vous pouvez également inviter d'autres programmeurs via leurs adresses e-mail Google.

Installation de bibliothèques spécifiques

Colab vous permet d'installer des bibliothèques non prises en charge nativement (AWS S3, GCP, SQL, MySQL, etc.) en ajoutant une ligne de code avec les préfixes suivants :

!pip install (exemple: !pip install matplotlib-venn)
!apt-get install (exemple: !apt-get -qq install -y libfluidsynth1)

Bibliothèques préinstallées

Google Colab inclut de nombreuses bibliothèques préinstallées, ce qui vous permet de les importer directement à partir d'extraits de code. Parmi celles-ci, on retrouve notamment NumPy, Pandas, Matplotlib, PyTorch, TensorFlow, Keras et d'autres bibliothèques courantes en apprentissage automatique.

Codage collaboratif

Le co-codage est un atout majeur pour les projets d'équipe, car il permet d'atteindre les objectifs plus rapidement. Si votre équipe a besoin d'une collaboration en temps réel sur des projets d'apprentissage automatique et de science des données, Google Colab est l'outil idéal.

Partagez simplement un lien modifiable avec vos collaborateurs ou invitez-les directement pour un codage en groupe. L'ensemble du notebook Python se met à jour automatiquement avec les contributions de chacun, simulant l'expérience de travail sur des feuilles de calcul ou des documents Google partagés.

Stockage dans le cloud

Google Colab utilise votre espace de stockage Google Drive pour l'enregistrement des fichiers. Vous pouvez ainsi reprendre votre travail sur n'importe quel ordinateur ayant accès à votre compte Google Drive.

Le stockage dans le cloud sert également de sauvegarde pour vos données en cas de problème.

Intégration avec GitHub

Vous pouvez connecter votre compte GitHub à Google Colab pour importer et exporter des fichiers de code en toute transparence. Pour importer, appuyez sur Ctrl+O et cliquez sur l'onglet GitHub pour accéder aux fichiers. Pour exporter, cliquez simplement sur "Enregistrer une copie sur GitHub" dans le menu "Fichier".

Sources de données multiples

Google Colaboratory prend en charge diverses sources de données pour vos projets d'apprentissage automatique et d'IA. Vous pouvez par exemple importer des données depuis votre machine locale, connecter Google Drive à une instance Colab, récupérer des données à distance et cloner un dépôt GitHub dans Colab.

Contrôle de version automatique

À l'instar de Google Sheets et Docs, Google Colab offre un suivi complet de l'historique des modifications. Le module enregistre tous les changements effectués depuis la création du fichier. Vous pouvez accéder aux journaux depuis le menu "Fichier" en cliquant sur "Historique des révisions".

Pourquoi choisir Google Colab ?

  • Google Colaboratory est un outil basé sur le cloud, ce qui vous permet de démarrer rapidement le développement de modèles d'apprentissage automatique et de science des données à partir d'un simple navigateur Chrome.
  • Colab est gratuit, avec des ressources limitées. Cependant, il ne faut pas s'attendre à pouvoir stocker des modèles d'IA ou d'apprentissage automatique indéfiniment sur l'infrastructure gratuite de Colab.
  • Si vous êtes familier avec Jupyter, vous n'aurez pas besoin d'une période d'apprentissage spécifique pour utiliser Google Colaboratory.
  • Vous bénéficiez d'un accès gratuit aux GPU et TPU pour les projets avancés en science des données et en apprentissage automatique.
  • Les bibliothèques de science des données les plus populaires sont déjà préinstallées.
  • Les programmeurs peuvent facilement partager leurs notebooks de code avec d'autres collaborateurs pour un codage en temps réel.
  • Comme Google héberge les notebooks sur Google Cloud, vous n'avez pas à vous préoccuper du contrôle de version ou du stockage de vos documents de code.
  • Colab s'intègre facilement avec GitHub.
  • Vous pouvez entraîner l'IA à l'aide d'images.
  • Vous pouvez également former des modèles à partir de données audio ou textuelles.
  • Les chercheurs peuvent également exécuter des programmes TensorFlow sur Colab.

Comment utiliser Google Colab

Pour utiliser Google Colaboratory, vous devez remplir les conditions suivantes :

  • Posséder un compte Google pour bénéficier de toutes les fonctionnalités de Colab.
  • Utiliser un ordinateur compatible avec la dernière version de Google Chrome ou Mozilla Firefox.
  • Google recommande Chrome pour Colab.
  • Accepter les conditions d'utilisation des données de Google.

Vous pouvez accéder à Google Colaboratory depuis son site officiel. Colab est gratuit ; cependant, l'accès aux ressources limitées n'est pas garanti. Pour obtenir des performances et une capacité de traitement supérieures avec des ressources garanties, vous pouvez opter pour Colab Pro ou Pro+.

Pour découvrir des modèles adaptés à Colab en science des données et en apprentissage automatique, vous pouvez consulter Google Seedbank.

Différences entre Google Colab et Jupyter Notebook

FonctionnalitéGoogle ColaboratoryJupyter Notebook
Visualisation instantanée des fichiers de codeOuiNon
Partage de documents de codeOuiNon
Bibliothèques installéesOuiNon
Hébergement dans le cloudOuiNon
Synchronisation des fichiersOuiNon

#1. Colab ne nécessite aucune installation de logiciel sur votre machine locale. Au contraire, Jupyter Notebook nécessite l'installation de logiciels et l'utilisation des ressources de votre machine pour les calculs.

#2. Étant basé sur le cloud, Colab offre un contrôle de version automatique. De plus, Google Drive enregistre régulièrement votre notebook Python. Sur Jupyter Notebook, vous devez enregistrer le notebook régulièrement et gérer le contrôle de version vous-même.

#3. Les fichiers Colab sont disponibles sur Google Drive, ce qui assure la sauvegarde. Les fichiers Jupyter Notebook ne sont pas sauvegardés automatiquement.

#4. Vous pouvez partager vos fichiers Colab avec n'importe qui, y compris des clients non spécialistes en science des données. Ils peuvent facilement ouvrir le document sur Google Colab pour l'examiner. Aucune installation de logiciel n'est nécessaire de leur côté.

Au contraire, le destinataire doit installer et exécuter Jupyter Notebook pour lire votre projet. Il devient donc plus difficile de partager ces fichiers avec des clients non experts.

#5. Google Colaboratory intègre les bibliothèques nécessaires aux projets de science des données et d'apprentissage automatique. De plus, il vous donne accès à une certaine quantité de CPU, de RAM, de GPU et de TPU dans le cloud. Vous gagnez ainsi du temps et de l'argent.

En revanche, vous devez rechercher et installer toutes les bibliothèques nécessaires à votre projet si vous travaillez avec l'application Jupyter Notebook. L'installation de nombreuses bibliothèques consomme également les ressources CPU, RAM et GPU de votre machine locale.

Réalisation de tâches courantes sur Google Colab

Créer un notebook

  • Accédez au portail Google Colab et consultez le message "Bienvenue dans Colab !".
  • Dans le menu supérieur, cliquez sur "Fichier".
  • Dans le menu contextuel "Fichier", choisissez "Nouveau notebook".
  • Votre nouveau notebook Python est prêt. Vous pouvez renommer le fichier.

Charger et télécharger des fichiers

Vous pouvez importer du code Python local dans Colab en suivant ces étapes :

  • Dans le menu supérieur, cliquez sur "Fichier".
  • Un menu contextuel s'ouvre avec différentes options.
  • Trouvez l'option "Télécharger le notebook" et cliquez dessus.
  • Une console s'affiche alors, avec des options comme "Exemples", "Google Drive", "GitHub" et "Télécharger".
  • Cliquez sur l'onglet correspondant à votre source de fichier et sélectionnez le contenu du code à télécharger.

Le téléchargement de votre projet en cours ou terminé est également très simple. Voici les étapes à suivre :

  • Cliquez sur le menu "Fichier" dans la barre de menu supérieure.
  • Passez le curseur sur "Télécharger".
  • Un menu contextuel s'ouvre avec deux options de format de téléchargement : .ipynb et .py.
  • Choisissez le format souhaité et téléchargez le fichier.

Accéder à GitHub

L'accès à GitHub est un jeu d'enfant avec Colab. Voici comment procéder :

  • Cliquez sur "Fichier" dans la barre de menu supérieure.
  • Sélectionnez "Télécharger le notebook" dans le menu contextuel.
  • Une console avec un onglet "GitHub" s'affiche.
  • Vous pouvez également utiliser le raccourci clavier Ctrl+O pour accéder à la même console.
  • Les options de recherche GitHub incluent l'URL GitHub, le nom d'utilisateur et le nom de l'organisation.

Accéder aux fichiers locaux

  • Appuyez sur Ctrl+O dans votre nouveau notebook Colab.
  • Sélectionnez l'onglet "Télécharger" dans la console qui s'affiche.
  • Cliquez sur "Choisir un fichier" pour sélectionner le fichier local que vous souhaitez ouvrir dans Colab.

Accéder à Google Drive

  • Cliquez sur "Fichier" dans le menu supérieur.
  • Vous pouvez sélectionner "Ouvrir le notebook" ou "Télécharger le notebook".
  • Une console apparaît avec un onglet pour Google Drive.
  • Cliquez dessus pour accéder aux fichiers de Google Drive.

Pour connecter Google Drive à votre instance Colab, suivez ces étapes :

  • Cliquez sur "Fichier" dans le volet de navigation de gauche.
  • Sélectionnez la commande "Monter le lecteur".
  • Dans la notification qui s'affiche, sélectionnez "Se connecter à Google Drive".
  • Google vous demandera de choisir un compte pour l'autorisation.

Enregistrer et importer depuis Google Sheets

Vous pouvez facilement enregistrer vos données de notebook dans un fichier Google Sheets pour un traitement ultérieur. Voici comment procéder :

  • Cliquez sur le bouton "Extraits de code" dans le coin inférieur gauche.
  • Un volet de navigation s'ouvre sur le côté droit.
  • Tapez "Feuilles" dans le filtre pour trouver les extraits de code "Enregistrement des données" et "Importation de données".
  • Double-cliquez sur un titre pour inclure le code dans votre notebook.

Accéder à AWS S3

Vous pouvez accéder aux fichiers et aux éléments de codage à partir de plateformes de stockage cloud telles que AWS S3 et Azure Blob en utilisant des compartiments de stockage cloud.

Pour cela, vous devez installer ByteHub, qui permet de charger et d'enregistrer des données dans le stockage cloud. Vous pouvez exécuter le code suivant :

!pip install -q bytehub[aws]

Accéder aux jeux de données Kaggle

  • Accédez à votre compte Kaggle et cliquez sur "Expiration API Token" dans la section API pour supprimer les anciens tokens.
  • Créez un nouveau token d'API pour obtenir le fichier kaggle.json sur votre ordinateur local.
  • Utilisez le code suivant pour installer Kaggle :
!pip install -q kaggle
  • Chargez ensuite le fichier kaggle.json dans la base de code Python en suivant les bonnes pratiques de codage.

Conclusion

Après cet examen approfondi de l'application Google Colaboratory, vous devriez être en mesure de commencer vos projets d'apprentissage, de formation ou de pratique en apprentissage automatique. Google Colab est une application cloud très pratique pour ceux qui apprécient les notebooks Jupyter.

Vous pourriez également être intéressé par certains jeux de données publics populaires pour les projets de science des données.

Auteur
France

Rédacteur tech, guides pratiques et astuces numériques.