Le Datawarehouse ou entrepôt de données fait partie du système d’information décisionnel. Il permet de stocker de façon organisé les informations nécessaires.
Les données
Les données stockées doivent répondre à ses critères
- Orienté sujet : Les données sont organisées par thème, par métier.
- Intégré : Les données sont uniformisées : un seul type de format.
- Non volatile : Les données ne doivent pas êtres modifié au cours du temps, elle reste en lecture seul.
- Historisé : Les données sont horodatées selon une dimension de temps qui leur convient (année, mois, jour…). Certaines données ne peuvent être historisées.
À partir du Datawarehouse nous allons définir les datamarts beaucoup plus orientés métier. Le datamart est une seconde modélisation directement connecté sur le datawarehouse, dans la plupart des cas il va dupliquer les données et les organiser selon des besoins métiers. Je m’explique le datawarehouse centralise l’ensemble des données décisionnelles, les datamarts sont des nouvelles structures de données basés sur le datawarehouse permettant une nouvelle vue métier. L’objectif du datamart : accélérer la restitution des données lors de l’affichage d’un rapport, facilité l’accès au données a l’utilisateur.
Pour mieux comprendre, il faut se mettre à la place de l’utilisateur. Je suis responsable de la vente d’ordinateur en France dans une chaine de magasins. Ce que je souhaite c’est un tableau de bord m’indiquant la quantité d’ordinateurs vendus. Mais je souhaite faire varier des critères, voir les comparer.
Exemple :
– Quelle quantité d’ordinateurs vendus cette année pour les Bouches-du-Rhône ?
– Comparer la quantité d’ordinateurs vendus ces trois derniers mois pour les Bouches-du-Rhône, le var et les hautes Alpes.
Nous distinguons ici que nous avons deux types de données : les indicateurs (quantité) et les dimensions (temps, géographie) qu’il faudra proposer à l’utilisateur afin qu’il puisse affiner son étude.
Les datamarts sont donc pensés non pas d’un point de vue stockage de l’information, mais facilités de restitution. Ils suivent des modèles tels que le modèle en étoile et le modèle en flocon.
Le modèle en étoile
Le modèle en étoile permet d’orienter les données autour d’une table de fait. La table de fait contiendra le/les indicateurs ainsi que les clefs des différents axes de dimension
Le modèle en flocon
Le modèle en flocon est moins consommatrice en volume, mais elle est aussi moins performante en requête : plus de jointures.