site:enseignement:master:bdle:tmes:projet2020
Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| site:enseignement:master:bdle:tmes:projet2020 [24/11/2020 18:07] – amine | site:enseignement:master:bdle:tmes:projet2020 [14/12/2020 09:47] (Version actuelle) – [Modalités] amine | ||
|---|---|---|---|
| Ligne 24: | Ligne 24: | ||
| ===== Projet 2 ===== | ===== Projet 2 ===== | ||
| - | en construction ... | + | Le notebook des réponses devra contenir les informations suivantes : |
| - | rajouter notebook | + | * Nom(s) |
| + | * Description des données utilisées | ||
| + | * Source : lien vers la source publique des données ou lien de téléchargement si pas de lien publique | ||
| + | * Taille : en MB et en nb_lignes | ||
| + | * Description breve des données, quelle est la variable à prédire | ||
| + | * L' | ||
| + | |||
| ==== Modalités ==== | ==== Modalités ==== | ||
| - | Rendre | + | Rendre |
| - | Date de remise : **10-12-2020** | + | - un document pdf avec lien vers un **notebook** Databricks contenant **code source** et **informations** décrites ci-haut |
| + | | ||
| + | Date de remise : à partir du **10-12-2020** jusqu' | ||
| + | [[https:// | ||
| - | Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, | + | Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, |
| L' | L' | ||
| Vous être libre d' | Vous être libre d' | ||
| Ligne 45: | Ligne 54: | ||
| * Identifier les données manquantes : extraire, pour chaque attribut, sa proportion de valeurs nulles | * Identifier les données manquantes : extraire, pour chaque attribut, sa proportion de valeurs nulles | ||
| * Identifier les valeurs aberrantes en fonction de votre dataset, s'il y en a | * Identifier les valeurs aberrantes en fonction de votre dataset, s'il y en a | ||
| - | * Sélectionner un sous-ensemble d' | + | * Sélectionner un sous-ensemble d' |
| - | * Sélectionner un sous-ensembles | + | |
| + | Les critères du dernier point seront définis en vous appuyant sur votre compréhension | ||
| - | Les critères des deux derniers points seront définis en vous appuyant sur votre compréhension des données ou sur des indications fournies par l' | ||
| === Tache 2 === | === Tache 2 === | ||
| Créer un pipeline pour encoder les features comme vu en cours : indexation des string, assemblage des vecteurs puis indexation. | Créer un pipeline pour encoder les features comme vu en cours : indexation des string, assemblage des vecteurs puis indexation. | ||
| - | Préciser quelles variables | + | Préciser quelles variables |
| - | Si besoin, transformation | + | A titre d' |
| - | Construire une paire 30%-70%d de jeux de test et d' | + | Construire une paire 30%-70% de jeux de test et d' |
| Lancer l' | Lancer l' | ||
| Ligne 64: | Ligne 73: | ||
| === Tache 3 === | === Tache 3 === | ||
| - | • Itération 1 : | + | == Sous-tache a == |
| - | • Cross validation avec 3 folds, grid search | + | Mettre en place une cross validation avec 3 folds, |
| - | • Analyses des métriques RMSE et MAE si dispo | + | |
| - | • Iteration 2 : tentative d’amélioration de la précision | + | |
| - | • Elimination des valeurs aberrantes (si elles existent) | + | |
| - | • Imputation des valeurs manquantes (utiliser fonctions Spark ML) | + | |
| - | • Relancer l’inference et constater les nouvelles valeurs des métriques | + | |
| - | === Tache 4 === | + | Afficher pour le meilleur modèle sélectionné : |
| + | * les paramètres de l' | ||
| + | * les métriques RMSE et MAE et les comparer à celles obtenues en | ||
| - | • Comparer les résultats des deux itérations | + | == Sous-tache b == |
| - | • Tenter | + | Dans une tentative |
| - | • Avis sur la libraire ML : difficultés rencontrées, | + | |
| + | * sélectionner un sous-ensembles des données en suivant également des critères qui vous semblent pertinents (valeurs aberrantes, prediction trop imprecise) | ||
| + | * Imputation des valeurs manquantes si possible (explorer l' | ||
| + | * Toute autre astuce qui vous semble utile | ||
| + | |||
| + | Relancer la cross validation avec le dataset nettoyé et constater les nouvelles valeurs des métriques. | ||
| + | |||
| + | |||
| + | === Tache 4 === | ||
| + | Donner succinctement votre avis sur la libraire ML : difficultés rencontrées, | ||
site/enseignement/master/bdle/tmes/projet2020.1606237620.txt.gz · Dernière modification : de amine
