Le schéma multidimensionnel est conçu pour créer un modèle de systèmes d’entrepôt de données.
L’objectif principal de ces schémas est de répondre aux besoins de bases de données plus volumineuses conçues à des fins analytiques (OLAP).
Cette méthode est utilisée pour ordonner les données dans la base de données avec un bon agencement du contenu dans une base de données. Le schéma permet aux clients de poser des questions associées aux tendances commerciales ou du marché.
De plus, un schéma multidimensionnel représente les données sous la forme de cubes de données qui permettent de visualiser et de modéliser les données sous différentes perspectives et dimensions.
Il est de trois types, mais beaucoup confondent étoile et flocon de neige. Par conséquent, il devient difficile pour eux de choisir le modèle préférable.
Si vous êtes l’un d’entre eux, discutons des différences entre le schéma en étoile et en flocon de neige, en commençant par la définition et en comprenant leurs avantages, leurs défis, leur diagramme et leurs caractéristiques.
Table des matières
Qu’est-ce qu’un schéma multidimensionnel ?
Le schéma fait référence à la description logique d’une base de données complète et de magasins de données. Il comprend le nom des enregistrements et leurs descriptions, y compris les agrégats et les éléments de données associés.
Une base de données utilise généralement un modèle relationnel pour décrire, alors qu’un système d’entrepôt de données utilise un modèle Schema.
Le schéma multidimensionnel peut être défini avec Data Mining Query Language (DMQL).
Pour définir les magasins de données et les entrepôts de données, il utilise deux primitives : la définition de dimension et la définition de cube.
Le schéma multidimensionnel utilise différents types de modèles de schéma. Elles sont:
- Schéma en étoile
- Schéma en flocon
- Schéma de galaxie
Discutons de ce que sont les schémas en étoile et en flocon de neige.
Étoile contre flocon de neige : qu’est-ce que c’est ?
Qu’est-ce qu’un schéma en étoile ?
Un schéma en étoile est un modèle architectural d’entreposage de données et d’intelligence d’affaires nécessitant une seule table de faits pour stocker les données mesurées et transactionnelles. Il utilise également différentes tables dimensionnelles plus petites pour contenir des attributs sur les données d’entreprise.
Il est nommé selon sa structure. Comme une étoile, la table de faits prend sa place au centre du diagramme, et de petites tables dimensionnelles s’assoient comme des branches sur la table centrale pour former une structure en forme d’étoile.
Chaque schéma en étoile se compose d’une seule table de faits mais de plusieurs petites tables dimensionnelles. Les tables de faits incluent des données spécifiques et mesurables qui doivent être analysées, telles que les performances enregistrées, les données financières ou les enregistrements de ventes. Il peut s’agir d’un instantané de données historiques à la fois ou transactionnel.
De plus, le schéma en étoile est le plus simple et le plus fondamental parmi les schémas d’entrepôts de données et de magasins de données. Il est efficace dans le traitement des requêtes de base. Le schéma en étoile prend généralement en charge l’informatique décisionnelle, les requêtes ad hoc, l’application analytique et les cubes de traitement analytique en ligne.
Le schéma en étoile prend également en charge le nombre, la moyenne, la somme et d’autres agrégations de nombreux enregistrements. Les utilisateurs peuvent facilement filtrer et regrouper les agrégations par dimensions. Par exemple, les utilisateurs génèrent des requêtes telles que « trouver tous les enregistrements de ventes en juin » ou « analyser le chiffre d’affaires total du bureau XYZ en 2022 ».
Qu’est-ce qu’un schéma en flocon de neige ?
Un schéma en flocon de neige est un modèle de données multidimensionnel qui peut également être appelé l’extension du schéma en étoile. En effet, les tables de dimension du schéma en flocon de neige se décomposent en sous-dimensions.
Un schéma est un flocon de neige si une ou plusieurs tables de dimension ne sont pas directement liées à la table de faits mais se connectent plutôt via d’autres tables de dimension.
Le snowflaking est un phénomène qui normalise les tables de dimension dans un schéma en étoile. Lorsque vous normalisez toutes les tables de dimension, la structure résultante ressemble à un flocon de neige contenant une table de faits au milieu de la structure.
En termes simples, le schéma en flocon de neige se compose d’une table de faits au milieu du modèle, qui est connectée à des tables de dimension, qui sont à nouveau liées à d’autres tables de dimension. Ce schéma est utilisé pour améliorer les performances des requêtes.
Le modèle est créé pour une interrogation rapide et flexible sur des relations et des dimensions complexes. Il est utile pour les relations un à plusieurs et plusieurs à plusieurs entre différents niveaux de dimensions.
En raison du respect plus strict des normes de normalisation, vous obtiendrez une plus grande efficacité de stockage. Mais la redondance des données est négligeable et les performances sont faibles par rapport aux modèles de données dénormalisés comme le schéma en étoile.
Étoile contre flocon de neige : comment fonctionnent-ils ?
Comment fonctionne un schéma en étoile ?
La table de faits au milieu du modèle en étoile stocke deux types d’informations : les valeurs d’attribut numériques et de dimension. Comprenons-les avec un exemple de base de données de ventes.
- Les valeurs numériques sont uniques à chaque ligne et point de données. Cela ne correspond pas ou ne se rapporte pas aux données stockées dans une autre ligne. Ce sont des faits sur une transaction donnée, tels que le montant total, la quantité de la commande, l’heure exacte, le bénéfice net, l’ID de la commande, etc.
- Les valeurs d’attribut dimensionnelles ne stockent pas de données directement, elles stockent plutôt des valeurs de clé étrangère pour la ligne dans une table dimensionnelle. Différentes lignes du tableau central feront référence à ces informations, telles que la valeur des données, l’ID du vendeur, l’ID de la succursale, l’ID du produit, etc.
Les tables de dimension stockent toujours les informations de prise en charge de la table de faits. Chaque table dimensionnelle se rapporte à la colonne d’une table de faits avec une valeur dimensionnelle et stocke des données supplémentaires sur cette valeur.
Exemple : la table de dimension Employé utilise l’ID d’employé comme valeur clé et contient également des informations telles que le nom, le sexe, l’adresse et le numéro de téléphone. De même, une table de dimensions de produit stocke des informations, notamment le nom du produit, la couleur, la première date de mise sur le marché, le coût de fabrication, etc.
Comment fonctionne un schéma en flocon de neige ?
Pensez à une conception de flocon de neige avec une boîte centrale et différentes connexions à travers cette boîte à différents points. Pour maintenir les magasins de données et les entrepôts de données, la conception de schéma en flocon de neige entre en jeu.
Il est similaire au schéma en étoile mais avec des changements infimes. Contrairement au schéma en étoile, le schéma en flocon de neige étend ses tables de sous-dimensions, qui sont liées aux tables de dimension.
L’objectif principal de ce modèle est de normaliser les informations dénormalisées du modèle en étoile. De cette façon, il peut résoudre les problèmes courants associés à un schéma en étoile.
Au cœur du schéma, vous trouverez une table de faits liée aux informations contenues dans les tables de dimension. Ces tables rayonnent à nouveau vers l’extérieur vers des tables de sous-dimensions qui contiennent des informations détaillées décrivant les informations de table de dimension.
Exemple : Le schéma en flocon contient une table de faits de vente et des tables de dimension de magasin, de ligne, de famille, de produit et de temps. Les dimensions du marché se composent de deux tables de dimension, avec le magasin comme table de dimension principale et l’emplacement du magasin comme table de sous-dimension. La dimension produit comporte trois tableaux de sous-dimensions mentionnant un tableau de sous-dimensions produit, ligne et famille.
Étoile contre flocon de neige : caractéristiques
Caractéristiques du schéma en étoile
- Le schéma en étoile peut filtrer les données des données normalisées pour répondre aux besoins d’entreposage de données. La clé unique est générée à partir des informations associées pour chaque table de faits afin d’identifier chaque ligne.
- Il fournit des calculs et des agrégations rapides, tels que le revenu des revenus gagnés et le nombre total d’articles vendus à la fin de chaque mois. Ces détails peuvent être filtrés en fonction des besoins en encadrant des requêtes adaptées.
- C’est la mesure des événements qui comprend des valeurs de nombre fini constituées de la clé étrangère. Ces clés sont liées aux tables dimensionnelles. Il existe différents types de tables de faits encadrées de valeurs au niveau atomique.
- La table de faits de transaction contient des données sur des événements spécifiques, tels que les soldes et les jours fériés.
- Les faits d’enregistrement incluent des périodes données telles que les informations de compte à la fin de l’année ou chaque trimestre.
- La table dimensionnelle donne des données détaillées sur les attributs ou les enregistrements trouvés dans la table centrale.
- L’utilisateur est capable de concevoir lui-même une table en fonction des besoins.
- Vous pouvez utiliser un schéma en étoile pour accumuler des tables d’instantanés.
Caractéristiques du schéma en flocon de neige
- Le schéma en flocon nécessite peu d’espace disque.
- Ce modèle est facile à mettre en œuvre grâce à ses tables de dimensions séparées et principales.
- Les tables de dimension contiennent au moins deux attributs pour définir des informations à plusieurs grains.
- En raison de plusieurs tables, les performances sont faibles par rapport au schéma en étoile.
- Le schéma en flocon de neige a le niveau d’intégrité des données le plus élevé et de faibles redondances dues à la normalisation.
Étoile contre flocon de neige : avantages
Avantages du schéma en étoile
- Le schéma en étoile est le moyen le plus simple parmi les schémas de datamart.
- Il a une logique de rapport simple. Cette logique est impliquée dynamiquement.
- Il est conçu à l’aide de cubes d’alimentation appliqués via le processus de transaction en ligne pour que les cubes fonctionnent de manière efficace et efficiente.
- Le schéma en étoile est formé avec une logique simple et des requêtes faciles à extraire du processus transactionnel.
- Il offre des performances améliorées pour les applications de reporting.
- Il est déployé pour contrôler la récupération rapide des données.
- Les informations filtrées et sélectionnées peuvent être appliquées facilement dans différents cas.
Avantages du schéma en flocon de neige
- Le schéma en étoile est utilisé pour développer les performances des requêtes en raison de la réduction des besoins en stockage sur disque.
- Il offre une plus grande évolutivité dans les relations entre les composants et les niveaux de dimension.
- C’est plus facile à entretenir.
- Le schéma en étoile offre une récupération rapide des données.
- Il s’agit d’un schéma de données commun et simple pour l’entreposage de données.
- Il contribue à améliorer la qualité des données.
- Les données structurées réduisent le problème de l’intégrité des données.
Étoile contre flocon de neige : limites
Limites du schéma en étoile
Il a un état dénormalisé et d’intégrité élevé. L’ensemble du processus s’effondrera si l’utilisateur ne parvient pas à mettre à jour les données. La sécurité et les protections sont également limitées. De plus, le schéma en étoile n’est pas aussi flexible que le modèle analytique. Il n’offre pas un soutien efficace aux diverses relations.
Limites du schéma en flocon de neige
La principale limitation que vous trouverez avec Snowflake est les efforts de maintenance supplémentaires dus au nombre croissant de tables de petites dimensions. De nombreuses requêtes complexes compliquent la recherche des données requises. De plus, le temps de mise en œuvre de la question est élevé du fait des tables plus hautes. Ce modèle est également rigide et nécessite des coûts de maintenance plus élevés.
Étoile contre flocon de neige : différences
Star et Snowflake sont des types de schéma multidimensionnel mais ont des structures et des propriétés différentes. Le premier est comme une étoile et le second ressemble à un flocon de neige, définissant leurs noms.
Dans le schéma en étoile, une seule jointure crée une relation entre la table de faits centrale et les tables de dimension secondaires. D’autre part, dans le schéma en flocon de neige, plusieurs jointures sont nécessaires pour établir un lien avec les tables de dimension.
Le schéma en étoile est généralement utilisé lorsque vous avez moins de lignes dans la table de dimension, tandis que le schéma en flocon de neige est utilisé lorsqu’une table de dimension est relativement grande.
Le diagramme ci-dessous différencie les deux modèles et comment les tables de dimension et la table de faits sont liées dans différents schémas.
ParamètresSchéma en étoileSchéma en flocon de neigeEspace disqueLe schéma en étoile utilise plus d’espace disque.Le schéma en flocon de neige utilise moins d’espace disque.Redondance des donnéesIl a une redondance élevée des données. entièrement normalisé.Performance des requêtesIl faut un minimum de temps pour exécuter les requêtes, ce qui se traduit par de meilleures performances.Il faut plus de temps que le schéma en étoile pour l’exécution de la requête, ce qui le rend moins performant que le schéma en étoile.Complexité de la requêteLa complexité de la requête est faible.La complexité de la requête est supérieur au schéma en étoile. Maintenance En raison de la redondance élevée des données, la maintenance du schéma en étoile est un peu difficile. En raison de la faible redondance des données, il est facile de maintenir et de modifier le schéma en flocon. des copies existent dans les tables de dimension. L’intégrité des données est faible car elle normalise complètement les tables de dimension. Hiérarchies Les hiérarchies des tables de dimension dans le schéma en étoile sont stockées dans la table de dimension. Les hiérarchies sont divisées en tables de dimension distinctes. La table de faits est entourée de tables de dimension qui sont également entourées de tables de sous-dimensions. Le schéma Set upStar est facile à concevoir et à configurer car les relations directes les représentent. D’autre part, le schéma en flocon de neige est un peu complexe à configurer. Traitement du cubeLe traitement du cube est plus rapide.En raison d’une jointure complexe, le traitement du cube est un peu lent.Clés étrangèresIl a un nombre minimum de clés étrangères.Il a le nombre maximum de clés étrangères.
Conclusion
Les schémas Star et Snowflake sont utiles dans différents secteurs. Ainsi, décider lequel est le meilleur parmi eux est basé sur leurs besoins.
Le schéma en flocon de neige est l’extension du schéma en étoile, où il normalise les tables de dimension dans le schéma en étoile.
Le schéma en étoile est de conception simple, exécute les requêtes plus rapidement et la configuration est simple. D’autre part, le schéma en flocon de neige est plus facile à maintenir, prend moins d’espace disque et est moins sujet aux problèmes d’intégrité des données.
Ainsi, un schéma en étoile pourrait être la meilleure option si vous avez besoin d’une conception simple, de moins de clés étrangères et d’un traitement de cube plus rapide. Mais, si vous avez besoin de moins d’espace disque, d’une faible intégrité des données et d’une faible maintenance, le schéma en flocon de neige peut être plus approprié.
Vous pouvez également explorer certaines des meilleures solutions de base de données de graphes.