Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:projet2020

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
site:enseignement:master:bdle:tmes:projet2020 [07/12/2020 19:13] – [Projet 2] aminesite:enseignement:master:bdle:tmes:projet2020 [14/12/2020 09:47] (Version actuelle) – [Modalités] amine
Ligne 36: Ligne 36:
 ==== Modalités ==== ==== Modalités ====
  
-Rendre un lien vers un **notebook** Databricks contenant *code source* et *informations* décrites ci-haut.+Rendre   
  
-Date de remise : **10-12-2020** (voire plus tard si les circonstances ne le permettent pas, mais pas au delà du *20-12-2020*)+  - un document pdf avec lien vers un **notebook** Databricks contenant **code source** et **informations** décrites ci-haut 
 +  un document HTML obtenu en exportant votre **notebook**
  
 +Date de remise : à partir du **10-12-2020** jusqu'au **20-12-2020 23h59** sur 
 +[[https://moodle-sciences.upmc.fr/moodle-2020/course/view.php?id=3209|Moodle]]
  
-Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours,+Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, Le langage utilisé est **Scala**.
 L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes". L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes".
 Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB. Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB.
Ligne 63: Ligne 66:
 A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année. A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année.
  
-Construire une paire 30%-70%de jeux de test et d'entrainement. +Construire une paire 30%-70% de jeux de test et d'entrainement. 
  
 Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres. Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres.
site/enseignement/master/bdle/tmes/projet2020.1607364798.txt.gz · Dernière modification : de amine