site:enseignement:master:bdle:supports-cours:spark
Ceci est une ancienne révision du document !
Table des matières
Supports Cours
Datasets utilisés
TPCH
Copier dans votre espace perso puis désarchiver
/.../tpch-extrait.tgz
En étant dans tpch-extrait, créer les données dans hdfs en tapant
hadoop fs -mkdir /tpch hadoop fs -put lineitem.tbl /tpch hadoop fs -put part.tbl /tpch
puis vérifier que les fichiers existent
hadoop fs -ls /tpch
Spark RDD
Commencer par charger les données en RDD
val tpch="/tpch/" val lineitem_t = tpch+"lineitem.tbl" val part_t = tpch+"part.tbl"
Spark SQL
site/enseignement/master/bdle/supports-cours/spark.1542299200.txt.gz · Dernière modification : de amine