2022-08-12 06:23 Temps de lecture : 22 min

26 ensembles de données ouverts impressionnants pour vos projets de science des données/ML

La quête d'ensembles de données pertinents peut s'avérer ardue, surtout lorsqu'ils sont essentiels pour des projets d'apprentissage automatique (ML) ou de science des données. Afin de simplifier cette recherche, nous vous proposons une liste exhaustive d'ensembles de données accessibles gratuitement.

Les ensembles de données se définissent comme des regroupements d'informations. Ces informations peuvent concerner des domaines variés tels que la finance, la santé publique, les marchés boursiers, le secteur bancaire, la géographie, la recherche en physique des particules, les évaluations de produits sur des plateformes de commerce électronique, et bien d'autres.

Ces ensembles sont constitués de données recueillies selon des protocoles de recherche scientifique. Ils sont cruciaux pour l'élaboration de visualisations, d'analyses approfondies, de prédictions, etc. Étant donné que les données sont considérées comme le pétrole de l'ère numérique, les ensembles de données prennent une valeur marchande et deviennent une ressource rare.

Poursuivez votre lecture pour explorer les bases des ensembles de données et découvrir des ressources open source réellement gratuites pour vos projets en apprentissage automatique ou en science des données.

Qu'est-ce qu'un ensemble de données ?

Un ensemble de données est un rassemblement de données structurées et organisées. Les chercheurs associent généralement les ensembles de données à une entité unique, par exemple, la plateforme Open Data de la Banque Mondiale.

Par ailleurs, les collecteurs de données conservent des ensembles de données spécifiques à des sujets précis, tels que les données du recensement de 2020 aux États-Unis, publiées par le Bureau du recensement américain.

Il existe une multitude d'ensembles de données portant sur des problématiques mondiales et locales. La plupart de ces ensembles contiennent des points de données interdépendants, comme par exemple la population d'un pays et son lien avec les taux d'obésité au sein de différentes classes de la population.

Les scientifiques des données peuvent avoir besoin de nettoyer, de restructurer et de traiter ces ensembles à l'aide d'outils de mégadonnées afin de tirer des conclusions significatives, telles que la réduction des déchets plastiques par l'analyse des données de consommation de plastique, la résolution des problèmes de main-d'œuvre par l'analyse des données salariales, ou encore l'entraînement des algorithmes d'intelligence artificielle.

Types d'ensembles de données

Selon leur source, les ensembles de données peuvent être classés en deux catégories : publics ou privés. Les ensembles de données publics sont accessibles à tous et jouent un rôle essentiel dans la recherche et le développement.

Ils peuvent également être catégorisés selon les informations qu'ils contiennent :

  • Multivariés : Contiennent de multiples variables.
  • Catégoriques : Représentent différentes catégories de personnes.
  • Numériques : Mesurent les données en chiffres, tels que l'âge ou la taille.
  • Corrélationnels : Les points de données sont interdépendants.
  • Basés sur des fichiers : Stockés sous forme de fichiers.
  • Bivariés : Un ensemble de données avec deux variables et leur relation.
  • Ensembles de données web : Données collectées sur un ou plusieurs portails web.
  • Bases de données : Stockent les données en tables, colonnes et lignes.

Ensembles de données open source pour la science des données

Les ensembles de données gratuits sont le moteur de votre passion pour une carrière en science des données. Si vous êtes en début de parcours, vous aurez peut-être besoin de projets personnels et non commerciaux pour renforcer votre confiance ou construire votre portfolio.

Ces ensembles vous permettent de mettre en pratique vos compétences en appliquant des outils et techniques à des problématiques réelles.

Par exemple, il existe des données de recherche sur le cancer, des données sur la COVID-19, des données du casier judiciaire du FBI, ou des données d'analyse des particules du CERN. Vous pouvez les utiliser pour créer des modèles de science des données et résoudre des problèmes cruciaux dans les domaines sociaux, financiers et sanitaires.

De plus, ces projets enrichiront votre portfolio. Si vous réussissez à élaborer un modèle d'analyse de données capable de fournir des informations exploitables, vous pourrez le présenter sur votre site web de portfolio. Les employeurs préfèrent les exemples concrets aux simples déclarations d'intention.

Ensembles de données gratuits pour l'apprentissage automatique

Les professionnels du ML ont également besoin de projets autonomes pour évaluer leurs compétences. Un projet réussi constitue une excellente addition à votre portfolio de projets ML, en ligne ou hors ligne.

La croissance de la science des données et du ML dépend de la disponibilité d'ensembles de données structurés. Si ces ensembles étaient uniquement accessibles sur le marché, la recherche et le développement en science des données seraient centrés sur les intérêts des entreprises.

Afin de garantir que la recherche sur le ML en science des données reste accessible à tous, plusieurs agences, institutions et plateformes proposent des ensembles de données gratuits :

Data.gov

Sur Data.gov, vous trouverez toutes les données ouvertes collectées et traitées par le gouvernement américain. La plateforme offre également des ressources et des outils pour effectuer des recherches, créer des visualisations de données ou développer des applications web/mobiles.

Parmi les ensembles de données notables, on trouve des informations sur l'utilisation durable des terres, le logement rural, ou encore des cartes de navigation électroniques intérieures.

Ensembles de données ouverts : Kaggle

Kaggle offre une multitude de données publiques et de codes informatiques pour les projets de science des données. Vous pouvez sélectionner "Datasets" pour les données brutes et "Code" pour les codes de programmation. Parmi les ensembles de données populaires sur Kaggle figurent les données AMEX, les données sur l'audience de l'émission "Simpsons", ou encore les données pour l'entraînement de Chatbots.

Ensembles de données de segment : YouTube 8-M

Les ensembles de données de segment de YouTube 8-M proposent des annotations de segments vérifiées par des évaluateurs humains. Vous pouvez également accéder à l'ensemble de données YouTube-8M depuis le même portail. L'ensemble comprend 6,1 millions d'identifiants de vidéos, 350 000 heures de vidéo, 2,6 milliards de caractéristiques audiovisuelles, 3 863 classes de vidéos, et en moyenne, 3 étiquettes par vidéo.

Registre des données ouvertes sur AWS

Le ROD sur AWS facilite le partage et la découverte d'ensembles de données hébergés sur des ressources AWS. Parmi les ensembles de données notables, on peut citer The Cancer Genome Atlas, les ensembles de données Foldingathome COVID-19, ou encore Common Crawl.

Référentiel d'apprentissage automatique : UCI

Le référentiel d'apprentissage machine UCI héberge actuellement 622 ensembles de données adaptés aux scientifiques des données et aux ingénieurs ML pour l'entraînement de leurs modèles d'IA. Une interface de recherche permet de naviguer facilement dans la base de données. Les ensembles les plus populaires comprennent les données d'accéléromètres, les données de machines synchrones, l'ensemble de données Wikipedia Math Essentials, ou encore l'ensemble de données Turkish Headlines.

Ensembles de données publics BigQuery : Google Cloud

De nombreux ensembles de données publics sont stockés sur BigQuery. Google rend ces ensembles accessibles gratuitement via le programme Google Cloud Public Dataset. Cependant, l'accès gratuit est limité à 1 To par mois. Vous pouvez utiliser des requêtes SQL standard ou SQL hérité.

Ensembles de données publics impressionnants : GitHub

Awesome Public Datasets est une ressource open source qui rassemble des données publiques thématiques. Les données sont collectées et triées à partir de divers blogs, réponses et commentaires d'utilisateurs. La ressource regroupe des ensembles de données gratuits et payants dans les domaines de la physique, du sport, des logiciels, du traitement du langage naturel et de l'apprentissage automatique.

Données de la Banque mondiale

La plateforme Open Data de la Banque mondiale offre un accès gratuit aux données sur le développement mondial. Elle propose également d'autres ressources, telles que des tableaux et des rapports préformatés. Vous pouvez effectuer des recherches par pays ou par indicateur pour trouver l'ensemble de données souhaité.

FiveThirtyEight : Données

FiveThirtyEight est un site web américain qui traite de l'analyse de sondages d'opinion, de la politique, de l'économie et du sport. Vous pouvez accéder aux données de sondages et de prévisions via des ensembles de données téléchargeables directement depuis la plateforme.

ImageNet

ImageNet est une base de données d'images utilisée par les chercheurs du monde entier pour obtenir des ensembles de données open source dans le cadre de projets non commerciaux. Les images sont organisées selon la hiérarchie de WordNet. Le projet joue un rôle essentiel dans la recherche de pointe en apprentissage profond.

Archives des ensembles de données : UNICEF DATA

Les archives d'ensembles de données vous donnent accès aux données collectées par l'UNICEF à travers le monde. Vous y trouverez des données sur la migration, les déplacements, l'alimentation, la connectivité, l'éducation, la santé, l'apprentissage, la mortalité, la violence, le développement de l'enfant, le mariage des enfants, le travail des enfants, et de nombreuses autres statistiques.

Trouver des données ouvertes : Govt. du Royaume-Uni

Si votre projet nécessite des données publiées par les organismes locaux et le gouvernement central du Royaume-Uni, le portail "Find Open Data" est la ressource à consulter. Il couvre divers domaines tels que les dépenses publiques, les entreprises, la santé, l'éducation, la défense et bien d'autres.

Données : Bureau du recensement des États-Unis

Vous avez besoin de données du recensement américain pour votre projet ? USCB Data peut vous aider. Vous y trouverez des données, des tableaux, des cartes et des profils de données du recensement de 2020, ainsi que des outils de visualisation et d'analyse.

Données et statistiques : CDC

L'agence fédérale américaine Centers for Disease Control and Prevention (CDC) met également à disposition du public des ensembles de données gratuits sur ce portail. Les thèmes abordés incluent la santé environnementale, les maladies chroniques, les naissances et la natalité, les décès et la mortalité, l'espérance de vie, les blessures et la violence, la santé reproductive ou encore les maladies à déclaration obligatoire.

Ensembles de données : MIT

Cette ressource se concentre sur les données de vibrations induites par des vortex. Le Center for Ocean Engineering du MIT héberge des ensembles de données accessibles au public pour l'analyse comparative de codes informatiques. Les ensembles de données sont ouverts à tous afin de stimuler de nouvelles théories et de synchroniser les chercheurs travaillant dans le même domaine.

Catalogue de données de la Banque mondiale

Le catalogue de données regroupe des ensembles de données gratuits qui facilitent l'accès aux données de la Banque mondiale relatives au développement. Vous pouvez y trouver et télécharger facilement les informations dont vous avez besoin pour vos projets. Le catalogue compte plus de 5 000 ensembles de données couvrant les plateformes de microdonnées, de finances et d'énergie de la Banque Mondiale.

Données scientifiques spatiales de la NASA

La NASA propose un accès à ses données d'archives sur la plateforme Space Science Data Coordinated Archive. Cette ressource est précieuse pour le grand public, en particulier pour les professionnels de l'éducation et de la recherche spatiale. Elle contient 400 To de données numériques avec des informations sur 550 domaines des sciences spatiales.

Obtenez les données : à l'intérieur d'Airbnb

Airbnb, le marché en ligne de renommée mondiale pour les séjours chez l'habitant et les locations de vacances, met à disposition des données sur diverses villes du monde via la plateforme "Get the Data". Vous pouvez naviguer par ville pour obtenir rapidement les données. Vous pouvez également demander les données spécifiques dont vous avez besoin et consulter les hypothèses de données sur ce portail.

Données web : Avis sur Amazon

Les personnes intéressées par les études de marché et les avis sur les produits peuvent utiliser les ensembles de données fournis par Snap Web Data. Ils contiennent plus de 34 millions d'avis d'utilisateurs sur Amazon, collectés entre juin 1995 et mars 2013. L'ensemble de données comprend du texte brut, des informations sur les produits, le nom d'utilisateur, les évaluations et les avis.

Données du FMI

Le portail de données du FMI est une ressource précieuse pour tous types de données économiques et financières. Que vous recherchiez des données financières du FMI, des statistiques du secteur extérieur, des publications phares ou des données microéconomiques, vous les trouverez ici. De plus, vous pouvez filtrer les données par pays.

Google Books Ngrams

Si vous travaillez sur des projets liés au traitement du langage, Google Books Ngrams peut être un outil très utile. Cet ensemble de données open source permet d'analyser l'évolution de l'utilisation d'un mot ou d'une expression particulière au fil du temps. Les données proviennent des documents numériques indexés par Google.

Données sur les marchés : le Financial Times

Si vous recherchez des données fiables et précises sur les marchés boursiers mondiaux et régionaux, "Markets Data" du Financial Times est une ressource précieuse. Vous y trouverez des données de marché pour l'Amérique, l'Asie-Pacifique, l'Europe, l'Afrique et le marché mondial.

Données terrestres : NASA

La NASA offre un accès complet et ouvert à ses données scientifiques via le programme Earth Data qui vous aide à comprendre notre planète et à mener des projets liés à elle. Vous y trouverez des ensembles de données gratuits sur l'atmosphère, la biosphère, la cryosphère, les dimensions humaines, la surface terrestre, l'océan, la terre solide, l'interaction soleil-terre et l'hydrosphère terrestre.

Recherche d'ensemble de données : Google

Si vous êtes étudiant, chercheur ou scientifique des données à la recherche d'ensembles de données pour appuyer votre projet, vous pouvez utiliser le portail de recherche d'ensembles de données de Google. C'est un moteur de recherche dédié aux ensembles de données qui vous permet de découvrir des ressources hébergées sur différents sites web en utilisant des mots-clés.

Données ouvertes : CERN

L'organisation européenne de recherche CERN dispose d'un portail Open Data qui donne accès aux données générées par la recherche au CERN. Ce portail contient deux pétaoctets de données liées à la physique des particules, ainsi que les applications et la documentation nécessaires à leur analyse.

Explorateur de données criminelles : FBI

Le Crime Data Explorer (CDE) est l'ensemble de données open source du FBI qui a pour objectif de faciliter l'accès au partage de données criminelles et non criminelles, ainsi qu'aux données policières. La plateforme vous permet de découvrir les données nécessaires grâce à des outils de visualisation et de filtrage par catégorie. Les données sont téléchargeables au format CSV.

Derniers mots

Vous avez maintenant une liste très complète d'ensembles de données de haute qualité. L'article a présenté des ressources provenant de divers domaines tels que les sciences physiques, les dossiers médicaux, la recherche spatiale, les casiers judiciaires, ou encore les évaluations de produits.

Choisissez l'ensemble de données qui convient le mieux à votre projet de science des données ou d'apprentissage automatique. La plupart de ces ensembles de données comprennent également des instructions pour vous guider dans votre travail.

Ces ressources pourraient également vous intéresser pour l'apprentissage de la science des données et du ML.

Auteur
France

Rédacteur tech, guides pratiques et astuces numériques.