Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:projet2020

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
site:enseignement:master:bdle:tmes:projet2020 [26/11/2020 14:15] – [Modalités] aminesite:enseignement:master:bdle:tmes:projet2020 [14/12/2020 09:47] (Version actuelle) – [Modalités] amine
Ligne 24: Ligne 24:
 ===== Projet 2 ===== ===== Projet 2 =====
  
-en construction ...rajouter notebook réponses et trame compte rendu +Le notebook des réponses devra contenir les informations suivantes : 
 + 
 +  * Nom(s) et prénom(s) du groupe  (monôme ou binôme mais pas au delà) 
 +  * Description des données utilisées 
 +    * Source : lien vers la source publique des données ou lien de téléchargement si pas de lien publique 
 +    * Taille : en MB et en nb_lignes 
 +    * Description breve des données, quelle est la variable à prédire 
 +    * L'argumentaire demandé dans chacune des taches décrites ci-dessous 
 + 
  
 ==== Modalités ==== ==== Modalités ====
  
-Rendre un lien vers un **notebook** Databricks  + petit compte-rendu (suivant **trame**) +Rendre   
  
-Date de remise : **10-12-2020** (voire plus tard si les circonstances ne le permettent pas, mais pas au delà du *20-12-2020*)+  - un document pdf avec lien vers un **notebook** Databricks contenant **code source** et **informations** décrites ci-haut 
 +  un document HTML obtenu en exportant votre **notebook**
  
 +Date de remise : à partir du **10-12-2020** jusqu'au **20-12-2020 23h59** sur 
 +[[https://moodle-sciences.upmc.fr/moodle-2020/course/view.php?id=3209|Moodle]]
  
-Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours,+Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, Le langage utilisé est **Scala**.
 L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes". L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes".
 Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB. Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB.
Ligne 55: Ligne 66:
 A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année. A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année.
  
-Construire une paire 30%-70%de jeux de test et d'entrainement. +Construire une paire 30%-70% de jeux de test et d'entrainement. 
  
 Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres. Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres.
site/enseignement/master/bdle/tmes/projet2020.1606396529.txt.gz · Dernière modification : de amine