site:enseignement:master:bdle:supports-cours:spark
Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| site:enseignement:master:bdle:supports-cours:spark [15/11/2018 17:54] – [Spark SQL] amine | site:enseignement:master:bdle:supports-cours:spark [15/11/2018 18:12] (Version actuelle) – [Analyser du JSON en Spark SQL] amine | ||
|---|---|---|---|
| Ligne 20: | Ligne 20: | ||
| </ | </ | ||
| - | ===== Spark RDD ===== | + | |
| - | Commencer par charger les données en RDD | + | Les instructions suivantes sont communes aux deux sous-sections qui suivent et permette de charger les fichiers de l' |
| <code scala> | <code scala> | ||
| Ligne 28: | Ligne 28: | ||
| val part_t = tpch+" | val part_t = tpch+" | ||
| </ | </ | ||
| + | |||
| + | |||
| + | |||
| + | ===== Spark RDD ===== | ||
| Les instructions suivantes correspondent à la version Q17 simplifiée de TPCH suivante (attention, syntaxe incompatible avec certains compilateurs SQL) | Les instructions suivantes correspondent à la version Q17 simplifiée de TPCH suivante (attention, syntaxe incompatible avec certains compilateurs SQL) | ||
| Ligne 84: | Ligne 88: | ||
| ===== Spark SQL ===== | ===== Spark SQL ===== | ||
| + | |||
| + | Le but ici est d' | ||
| + | |||
| <code scala> | <code scala> | ||
| + | import spark.implicits._ | ||
| + | |||
| + | |||
| val lineitem = spark.read.format(" | val lineitem = spark.read.format(" | ||
| val part = spark.read.format(" | val part = spark.read.format(" | ||
| + | </ | ||
| + | Les instructions suivantes expriment les sous-expression de la requête | ||
| + | < | ||
| + | val inner = lineitem.groupBy(" | ||
| + | |||
| + | val outer = lineitem.join(part, | ||
| + | |||
| + | val q17_simp = inner.join(outer, | ||
| + | |||
| + | q17_simp.show() | ||
| </ | </ | ||
| + | |||
| + | Pour examiner les plans logiques et physique utiliser le explain | ||
| + | <code scala> | ||
| + | q17_simp.explain(true) | ||
| + | </ | ||
| + | Il est aussi possible de visualizer le plan physique et les Stages de l' | ||
| + | ===== Analyser du JSON en Spark SQL ===== | ||
| + | Les extrait du cours sont dans <code bash>/ | ||
| + | Chaque fichier de l' | ||
| + | L' | ||
| + | |||
| + | <code scala> | ||
site/enseignement/master/bdle/supports-cours/spark.1542300899.txt.gz · Dernière modification : de amine
