site:enseignement:master:bdle:supports-cours:spark
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
site:enseignement:master:bdle:supports-cours:spark [15/11/2018 17:53] – amine | site:enseignement:master:bdle:supports-cours:spark [15/11/2018 18:12] (Version actuelle) – [Analyser du JSON en Spark SQL] amine | ||
---|---|---|---|
Ligne 20: | Ligne 20: | ||
</ | </ | ||
- | ===== Spark RDD ===== | + | |
- | Commencer par charger les données en RDD | + | Les instructions suivantes sont communes aux deux sous-sections qui suivent et permette de charger les fichiers de l' |
<code scala> | <code scala> | ||
Ligne 28: | Ligne 28: | ||
val part_t = tpch+" | val part_t = tpch+" | ||
</ | </ | ||
+ | |||
+ | |||
+ | |||
+ | ===== Spark RDD ===== | ||
Les instructions suivantes correspondent à la version Q17 simplifiée de TPCH suivante (attention, syntaxe incompatible avec certains compilateurs SQL) | Les instructions suivantes correspondent à la version Q17 simplifiée de TPCH suivante (attention, syntaxe incompatible avec certains compilateurs SQL) | ||
Ligne 84: | Ligne 88: | ||
===== Spark SQL ===== | ===== Spark SQL ===== | ||
+ | |||
+ | Le but ici est d' | ||
+ | |||
+ | |||
+ | <code scala> | ||
+ | import spark.implicits._ | ||
+ | |||
+ | |||
+ | val lineitem = spark.read.format(" | ||
+ | |||
+ | val part = spark.read.format(" | ||
+ | |||
+ | </ | ||
+ | |||
+ | Les instructions suivantes expriment les sous-expression de la requête | ||
+ | < | ||
+ | val inner = lineitem.groupBy(" | ||
+ | |||
+ | val outer = lineitem.join(part, | ||
+ | |||
+ | val q17_simp = inner.join(outer, | ||
+ | |||
+ | q17_simp.show() | ||
+ | </ | ||
+ | |||
+ | Pour examiner les plans logiques et physique utiliser le explain | ||
+ | <code scala> | ||
+ | q17_simp.explain(true) | ||
+ | </ | ||
+ | Il est aussi possible de visualizer le plan physique et les Stages de l' | ||
+ | ===== Analyser du JSON en Spark SQL ===== | ||
+ | Les extrait du cours sont dans <code bash>/ | ||
+ | Chaque fichier de l' | ||
+ | L' | ||
+ | |||
+ | <code scala> |
site/enseignement/master/bdle/supports-cours/spark.1542300833.txt.gz · Dernière modification : de amine