Ancien TME 2016 : Exécution dans Spark

Exercice 3: Plan d'exécution

Visualiser le plan d'exécution de chaque requête à l'aide de l'interface graphique dans votre navigateur: localhost:4040

Dans l'onglet Jobs, cliquer sur le job le plus récent. Puis cliquer sur DAG visualization pour afficher le graphe des étapes. Expliquer le découpage en plusieurs étapes (stages). Masquer le DAG et lire, dans le tableau récapitulatif des étapes, la quantité de données échangées (lire la valeur dans la colonne shuffle read).

Dans l'onglet SQL, cliquer sur la requete la plus récente (celle correspondant au numéro de job de votre requête). Expliquer les opérations effectuées.

Exercice 4: interpréteur de requêtes

a) Proposer une structure pour représenter un motif complexe quelconque formé de plusieurs motifs de triplets reliés entre eux par des variables de jointure. On suppose que le motif complexe est connexe (i.e., il est formé d'une seule composante).

b) Proposer une fonction pour évaluer un motif complexe quelconque.

ANCIENS ENONCES 2015 et 2016

Dataset (vu en 2016)

Voir la définition des Datasets USERS, FILMS et AVIS dans le fichier du tme

RDD (vu en 2015)

Les utilisateurs : USERSRDD (numU, (genre, age, profession, codePostal)). Le numéro d'utilisateur numU identifie un utilisateur. Les notes attribuées par les utilisateurs : RATINGSRDD (numU, (film, note, date))

Voir la définition des RDD USERSRDD, RATINGSRDD dans le fichier du tme

Les données ont été lues puis fragmentées sans critère particulier en 10 et 20 fragments respectivement. Pour vérifier le nombre de fragments d'une RDD :

USERSRDD.partitions.size
RATINGSRDD.partitions.size