site:enseignement:master:bdle:tmes:algebrespark-dfds
Ceci est une ancienne révision du document !
Table des matières
[TME II-4] Miniprojet
Modalités
Date de remise : jeudi 09-11-2017, 14h00, par envoi de mail à baazizi@ia-lip6.fr, mettre en sujet [BDLE-MINIPROJ]
Documents à remettre : fichier texte (word, pdf, etc) contenant les résultats de chaque question + annexe contenant le code Scala utilisé dans chaque question.
Partie principale
Datasets à utiliser : Yago
Statistiques de base
- Retourner la liste des 10 propriétés les plus fréquentes. La sortie doit être une liste de couples (prop, freq) triée de manière décroissante.
- Retourner la liste des 10 noeuds ayant le plus grand degré sortant. Rappel Le degré sortant d'un noeud n est le nombre de triplets où n est le sujet. La sortie doit être une liste de couples (sujet, degré) triée de manière décroissante.
- Pour chaque propriété, retourner le nombre de sujets distincts d'où elle démarre ainsi que le nombre d'objets distincts où elle arrive. La sortie doit être une liste de tuples (pro, nb-sujets, nb-objets). Attention Un objet (sujet) peut avoir plusieurs fois la même propriété.
- Encoder la fonction noeudDegre(d:entier) qui retourne les noeuds de degrée d. Le degré d'un noeud = degré sortant + degré entrant.
Statistiques sur les chemins et co-occurences
- Pour chaque pattern de 2 propriétés qui se suivent, calculer sa fréquence dans les données. Exemple Si le triple pattern (?x,influences,?y) (?y, livesIn, ?z) retourne 1000 résultats alor la fréquence du pattern (influences, livesIn) vaut 1000.
- Encoder la fonction cheminNoeudLongueur(noeud: string, len:entier) qui retourne, pour le sujet noeud, tous les chemins démarrant de noeud et ayant la longueur len. La longueur d'un chemin est le nombre de propriétés traversées.
- Pour chaque paire de propriétés, donner le nombre de sujets qu'elles partagent. Exemple. Si le triple pattern (x, livesIn, y) (x, citizenOf, z) retourne 10 résultat alors les propriétés de la paire (livesIn, citizenOf) partagent 10 sujets.
Bonus
Dataset à utiliser : DBpedia.
- Dans un premier temps, compléter les triplets de
dbpediaShortName8M
avec le type de leurs noeuds qui se trouvent dansdbpediaShortNameTypeFor8M.txt
. - Pour chaque type, retourner son domaine, i.e le nombre de sujets distincts ayant ce type.
- Pour chaque type, retourner son co-domaine, i.e le nombre d'objets distincts ayant ce type.
site/enseignement/master/bdle/tmes/algebrespark-dfds.1509026945.txt.gz · Dernière modification : de amine