Table des matières
Ancien TME 2016 : Exécution dans Spark
Exercice 3: Plan d'exécution
Visualiser le plan d'exécution de chaque requête à l'aide de l'interface graphique dans votre navigateur: localhost:4040
- Dans l'onglet Jobs, cliquer sur le job le plus récent. Puis cliquer sur DAG visualization pour afficher le graphe des étapes. Expliquer le découpage en plusieurs étapes (stages). Masquer le DAG et lire, dans le tableau récapitulatif des étapes, la quantité de données échangées (lire la valeur dans la colonne shuffle read).
- Dans l'onglet SQL, cliquer sur la requete la plus récente (celle correspondant au numéro de job de votre requête). Expliquer les opérations effectuées.
Exercice 4: interpréteur de requêtes
a) Proposer une structure pour représenter un motif complexe quelconque formé de plusieurs motifs de triplets reliés entre eux par des variables de jointure. On suppose que le motif complexe est connexe (i.e., il est formé d'une seule composante).
b) Proposer une fonction pour évaluer un motif complexe quelconque.
ANCIENS ENONCES 2015 et 2016
Dataset (vu en 2016)
Voir la définition des Datasets USERS, FILMS et AVIS dans le fichier du tme
RDD (vu en 2015)
Les utilisateurs : USERSRDD (numU, (genre, age, profession, codePostal)). Le numéro d'utilisateur numU identifie un utilisateur. Les notes attribuées par les utilisateurs : RATINGSRDD (numU, (film, note, date))
Voir la définition des RDD USERSRDD, RATINGSRDD dans le fichier du tme
Les données ont été lues puis fragmentées sans critère particulier en 10 et 20 fragments respectivement. Pour vérifier le nombre de fragments d'une RDD :
USERSRDD.partitions.size RATINGSRDD.partitions.size