Bdm

Ce cours s’intéresse aux techniques de traitement de données opérationnelles à des fin d’analyse, suivant la discipline de la modélisation dimensionnelle.

Supports de cours

Contexte et modèles dimensionnels.
Modélisation dimensionnelle avancée.
Conception physique des entrepôts de données.
Stratégies d’alimentation des E.D., et processus ETL.
Visualisation des données et cubes OLAP.

Exercices

Modèles dimensionnels.
Conception d’un modèle dimensonnel pour les ventes d’un supermarché.

Examens passés

Sujet de l’examen de première session 2021-2022.
Sujet de l’examen de seconde session 2021-2022.

Projet Élections 2022-2023

Dans ce projet, vous allez concevoir et réaliser un système pour stocker et analyser les résultats des élections à la chambre des représentants du congrès fédéral des États-Unis, de 1976 à 2020. Pour cela, vous utiliserez les données suivantes, proposées par Harvard :

  • Fichier csv.
  • Notice descriptive.

Merci de choisir un créneau de soutenance, et de déclarer la composition de votre groupe dans le formulaire sur Teams:

  • Fomulaire de décalaration de groupes.

Objectif

On veut pouvoir visualiser ces données suivant différents axes d’analyse. On souhaite donc les consolider dans un entrepôt de données structuré suivant la discipline de la modélisation dimensionnelle, et pouvoir y accéder par une interface de visualisation riche.

Consignes

Ce projet est à réaliser par groupes. Vous êtes libre de choisir les technologies, logiciels et langages de programmation que vous utiliserez. La seule contrainte est l’utilisation d’un système de gestion de bases de données pour stocker votre modèle. Le projet s’articule donc en trois parties:

  • stockage : conception et réalisation d’un modèle (dimensionnel) dans un système de gestion de bases de données.
  • alimentation : consolider et transformer les données sources (fichier csv référencé plus haut), et les charger dans le SGBD.
  • visualisation : récupérer et afficher les données, en permettant la navigation suivant les axes d’analyse et leurs hiérarchies dimensionnelles.

Analyses demandées

Le système à réaliser devra permettre de visualiser de manière plaisante les réponses aux questions suivantes :

  1. grandes tendances : comment l’équilibre entre les deux partis majoritaires évolue dans le temps? La réponse à cette question se décline à plusieurs niveaux d’analyse:
    1. évolution de la composition (nombre de sièges obtenu par chaque parti) de la chambre des représentants (au niveau national).
    2. évolution de la part du vote national de chacun des deux partis.
    3. évolution du nombre d’états ayant une majorité d’élus d’un parti ou de l’autre (ou sans majorité).
  2. la connection irlandaise : quels élections ont été gagnées par des candidats dont le nom de famille est Kennedy? Bonus : des intrus se cachent dans le clan Kennedy : certains élus portant ce patronyme n’ont pas de lien de parenté avec le président bien connu. Des points supplémentaires seront accordés pour une visualisation portant exclusivement sur les descendants de Joseph Kennedy Sr., et excluant ces homonymes.
  3. le Minnesota dans la ligne de mire : comment les résultats électoraux ont évolué dans cet état du Midwest ? On s’intéresse à la fois à l’évolution de la part du vote et à celle du nombre de sièges gagnés, pour chaque parti.
  4. succès involontaire : des candidats ont-ils étés élus sans s’être présentés ? Plus précisément, on se demande quels sont les meilleurs scores réalisés par des candidats write-in.

Évaluation

L’évaluation du projet sera basée sur deux productions:

  • un rapport détaillant les choix technologiques faits par le groupe, et l’organisation logicielle et humaine du projet;
  • une soutenance en personne (si les mouvements sociaux le permettent), où le système de visualisation sera présenté.

La note finale accordera un poids équivalent aux trois critères suivants:

  • qualité de la conception (choix technologiques ou algorithmiques, organisation logique des données, architecture du projet…);
  • justesse des résultats;
  • qualité des visualisation (élégance, réactivité, pertinence).

Organisation du rapport

Le rapport devra être rendu sous forme d’un unique fichier pdf. L’usage de LaTeX est encouragé (mais pas imposé). Le rapport devra être structuré, et contenir les informations suivantes:

  • organisation du groupe : répartition des responsabilités entre les membres du groupe.
  • choix technologiques : langages, logiciels et librairies utilisés. Toute justification argumentée de ces choix sera appréciée.
  • modèle conceptuel des données : un schéma accompagné d’explications présentant la structure interne de l’entrepôt de données. On s’attachera en particulier à justifier les précalculs qui y seront intégrés : tables de faits agrégées, index…

En plus de ces rubriques obligatoires, vous devrez présenter à votre discrétion des aspects supplémentaires de votre réalisation. Le but de cette partie de l’exercice est de mettre en avant les points forts de votre réalisation : choix techniques originaux, données auxiliaires permettant des analyses plus riches, solutions ingénieuses à des problèmes complexes…

Organisation de la soutenance

Pendant la soutenance, chaque groupe devra présenter les visualisation préparées à l’avance, répondant aux questions posées plus haut.

D’autres questions vous seront aussi posées, pour lesquelles vous devrez produire des visualisations. Vous aurez un temps limité (~ 20 minutes) pour préparer ces réponses.