Différences

Ci-dessous, les différences entre deux révisions de la page.

--- site:enseignement:master:bdle:tmes:tme3-prise-main-spark [07/09/2017 12:12] – amine
+++ site:enseignement:master:bdle:tmes:tme3-prise-main-spark [15/10/2018 09:09] (Version actuelle) – [Interrogation des données] amine
@@ Ligne 1: / Ligne 1: @@
-{{indexmenu_n>2}}
+{{indexmenu_n>30}}
-====== [TME II-2]  MapReduce en Spark   ======
+====== [TME II-1]  Introduction à Spark (Algèbre RDD)   ======
-Pour l'aide sur l'utilisation de Spark voir [[spark|ici]]
+**Remarque générale :** Le cours ne peut être //self-contained// --> consulter la documentation en ligne de [[https://spark.apache.org/docs/2.1.1/api/scala/index.html#package|Spark]].
+Pour l'aide sur l'utilisation de Spark voir [[spark|ici]]
 ===== Exercice 1 =====
-//Cet exercice est la suite de l'exercice 2 du TME précédent.//
+Copier le fichier
+<code> /Infos/bd/spark/bdle/2015/data/wordcount.txt.bz2</code> sur votre espace personnel.
 Lancer le spark-shell en mode local ([[spark|voir Doc]]) en suivant les instructions fournies
 puis charger le fichier
@@ Ligne 24: / Ligne 26: @@
   - Grouper les paires par ‘mot’ et additionner leur nombre nb.
   - Reprendre les questions 3 et 4 en calculant ‘mot’ différemment : désormais, ‘mot’ doit correspondre au préfixe du premier sous-élément de chaque élément de list, çad, pour en.d, mot doit être en, pour fr.d, mot doit être fr, etc. Comparer les résultats avec ceux obtenus précédemment.
-**Remarque** pour partitionner une chaîne de caractères en utilisant le point (.) comme délimiteur à l'aide de la méthode split(), il faut protéger le point avec \, i.e split("\.")
+**Remarque** pour partitionner une chaîne de caractères en utilisant le point (.) comme délimiteur à l'aide de la méthode split(), il faut protéger le point avec \, i.e split("\\.")
+<showif isloggedin>
+**Réponse**
+<code scala>
+//1.	Structurer le contenu de data de sorte à obtenir un tableau de tableaux de chaines de caractères. Ce dernier devra être stocké  dans une nouvelle variable nommée list.
+val list = data.map(_.split(" "))
+//2.	Afficher ensuite les 100 premiers éléments de la 3e colonne de list.
+val q12 = list.map(x=>x(2))
+//3.	Transformer le contenu de list en une liste de paires (‘mot’, nb) où mot correspond à la première colonne de list et nb sa troisième colonne.
+val q13 = list.map(x=>(x(0),x(2).toInt))
+//4.	Grouper les paires par ‘mot’ et additionner leur nombre nb.
+val q14 = q13.reduceByKey((x,y)=>x+y)
+//ou bien q13.reduceByKey(_+_)
+//5.	Reprendre les questions 3 et 4 en calculant ‘mot’ différemment : désormais, ‘mot’ doit correspondre au préfixe du premier sous-élément de chaque élément de list, çad, pour en.d, mot doit être en, pour fr.d, mot doit être fr, etc.
+val q13bis = list.map(x=>(x(0),x(2).toInt)).map(x=>(x._1.split("\\.")(0), x._2))
+</code>
+</showif>
 ===== Exercice 2 =====
 Cet exercice s’intéresse à la formulation de jointures simples en Scala.
@@ Ligne 50: / Ligne 84: @@
   * films (MovieID, Title, Genres)
-=== Structure de donnée : Dataset===
-Pour le TME sur les Dataset, récupérer le fichier suivant:
-<code bash>
-cp /Infos/bd/spark/tme-dataset-etudiant.scala <votre repertoire de travail>
-emacs tme-dataset-etudiant.scala &
-</code>
@@ Ligne 72: / Ligne 101: @@
 Par exemple, pour le nuplet (1,Toy Story (1995),Animation|Children's|Comedy) de films, il existe trois nuplets dans films_bis : (1,Toy Story (1995),Animation), (1,Toy Story (1995), Children's) et (1,Toy Story (1995), Comedy).
 Indice: pour construire films_bis, il est possible d’imbriquer une fonction map à l’intérieur d’une autre (cf. question 2 de l’exercice 3).
+<showif isloggedin>
+**Réponse**
+<code scala>
+//a.	le nombre de notes (ratings) réalisées par chaque utilisateur identifié par son UserID
+val q2a  = notes.map{case(userId,movieId,rating,ts)=>(userId,1)}.reduceByKey(_+_)
+//b.	le nombre de notes (ratings) réalisées par chaque localisation donnée par le Zip-code
+val q2b = utilis.map{case(userId,gender,age,occup,zipcode)=>(userId,zipcode)} join(notes.map{case(userId,movieId,rating,ts)=>(userId,1)}) map{case (userId,(zipcode, nb))=>(zipcode, 1)} reduceByKey(_+_)
+//c.	le nombre de notes (ratings) réalisées par chaque genre de film
+//jointure en notes et films
+val q2c = notes.map(x=>(x(1),1)).join(films.map(x=>(x(0),x(2)))).map{case (movieID, (genre,nb))=>(genre, 1)}.reduceByKey(_+_)
+//d.	les 10 utilisateurs ayant noté le plus de films.
+val q2d = notes.map(x=>(x(0),1)).reduceByKey(_+_).takeOrdered(10)
+//e.	Les films ayant reçu le moins de notes
+//f.	Les utilisateurs n’ayant noté aucun film
+//genre de films
+val films_bis = films.map(x=>(x._1,x._2,x._3.split("\\|"))).flatMap{case(a,b,l)=>l.map(x=>(a,b,x))}
+</code>
+</showif>
+=== Exercice Subsidiaire :  reprendre les questions précédentes en utilisant l'API Dataset ===
+Pour utiliser les Dataset, récupérer le fichier suivant:
+<code bash>
+cp /Infos/bd/spark/tme-dataset-etudiant.scala <votre repertoire de travail>
+emacs tme-dataset-etudiant.scala &
+</code>