Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:projet2020

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
site:enseignement:master:bdle:tmes:projet2020 [24/11/2020 18:18] aminesite:enseignement:master:bdle:tmes:projet2020 [14/12/2020 09:47] (Version actuelle) – [Modalités] amine
Ligne 24: Ligne 24:
 ===== Projet 2 ===== ===== Projet 2 =====
  
-en construction ...rajouter notebook réponses et trame compte rendu +Le notebook des réponses devra contenir les informations suivantes : 
 + 
 +  * Nom(s) et prénom(s) du groupe  (monôme ou binôme mais pas au delà) 
 +  * Description des données utilisées 
 +    * Source : lien vers la source publique des données ou lien de téléchargement si pas de lien publique 
 +    * Taille : en MB et en nb_lignes 
 +    * Description breve des données, quelle est la variable à prédire 
 +    * L'argumentaire demandé dans chacune des taches décrites ci-dessous 
 + 
  
 ==== Modalités ==== ==== Modalités ====
  
-Rendre un lien vers un **notebook** Databricks  + petit compte-rendu (suivant **trame**) +Rendre   
  
-Date de remise : **10-12-2020**+  - un document pdf avec lien vers un **notebook** Databricks contenant **code source** et **informations** décrites ci-haut 
 +  un document HTML obtenu en exportant votre **notebook**
  
 +Date de remise : à partir du **10-12-2020** jusqu'au **20-12-2020 23h59** sur 
 +[[https://moodle-sciences.upmc.fr/moodle-2020/course/view.php?id=3209|Moodle]]
  
-Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours,+Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, Le langage utilisé est **Scala**.
 L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes". L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes".
 Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB. Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB.
Ligne 53: Ligne 64:
 Préciser quelles variables donnent lieux à des "catgorical features" et quelles variables donnent lieux à des features continues. Préciser quelles variables donnent lieux à des "catgorical features" et quelles variables donnent lieux à des features continues.
  
-Si besointransforer des attributs timestamps vers nombre ou bien extraction de lannée ou du mois.+A titre d'exemplepour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année.
  
-Construire une paire 30%-70%de jeux de test et d'entrainement. +Construire une paire 30%-70% de jeux de test et d'entrainement. 
  
 Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres. Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres.
Ligne 73: Ligne 84:
  
   * sélectionner un sous-ensembles des données en suivant également des critères qui vous semblent pertinents (valeurs aberrantes, prediction trop imprecise)   * sélectionner un sous-ensembles des données en suivant également des critères qui vous semblent pertinents (valeurs aberrantes, prediction trop imprecise)
-  * Imputation des valeurs manquantes (utiliser fonctions Spark ML)+  * Imputation des valeurs manquantes si possible (explorer l'estimateur d'imputation de Spark ML)
   * Toute autre astuce qui vous semble utile   * Toute autre astuce qui vous semble utile
  
Ligne 80: Ligne 91:
  
 === Tache 4 === === Tache 4 ===
-Donner succinctement votre avis sur la libraire ML : difficultés rencontrées, aspects appréciés, facilité d'utilisation par rapport à d'autres librairies plus familières +Donner succinctement votre avis sur la libraire ML : difficultés rencontrées, aspects appréciés, facilité d'utilisation par rapport à d'autres librairies plus familières .
  
  
site/enseignement/master/bdle/tmes/projet2020.1606238299.txt.gz · Dernière modification : de amine