site:enseignement:master:bdle:tmes:algebrespark-dfds
Table des matières
[TME II-4] Miniprojet 2017
Année 2017
Modalités
Date de remise : jeudi 09-11-2017, 14h00, par envoi de mail à baazizi@ia.lip6.fr et à Hubert.Naacke@lip6.fr, mettre en sujet [BDLE-MINIPROJ]
Documents à remettre : fichier texte (word, pdf, etc) contenant les résultats de chaque question + annexe contenant le code Scala utilisé dans chaque question.
Partie principale
Datasets à utiliser : Yago
Statistiques de base
- Retourner la liste des 10 propriétés les plus fréquentes. La sortie doit être une liste de couples (prop, freq) triée de manière décroissante.
- Retourner la liste des 10 noeuds ayant le plus grand degré sortant. Rappel Le degré sortant d'un noeud n est le nombre de triplets où n est le sujet. La sortie doit être une liste de couples (sujet, degré) triée de manière décroissante.
- Pour chaque propriété, retourner le nombre de sujets distincts d'où elle démarre ainsi que le nombre d'objets distincts où elle arrive. La sortie doit être une liste de tuples (pro, nb-sujets, nb-objets). Attention Un objet (sujet) peut avoir plusieurs fois la même propriété.
- Encoder la fonction noeudDegre(d:entier) qui retourne les noeuds de degrée d. Le degré d'un noeud = degré sortant + degré entrant.
Statistiques sur les chemins et co-occurences
- Pour chaque pattern de 2 propriétés qui se suivent, calculer sa fréquence dans les données. Exemple Si le triple pattern (?x,influences,?y) (?y, livesIn, ?z) retourne 1000 résultats alors la fréquence du pattern (influences, livesIn) vaut 1000.
- Encoder la fonction cheminNoeudLongueur(noeud: string, len:entier) qui retourne, pour le sujet noeud, tous les chemins démarrant de noeud et ayant la longueur len. La longueur d'un chemin est le nombre de propriétés traversées.
- Pour chaque paire de propriétés, donner le nombre de sujets qu'elles partagent. Exemple. Si le triple pattern (x, livesIn, y) (x, citizenOf, z) retourne 10 résultat alors les propriétés de la paire (livesIn, citizenOf) partagent 10 sujets.
Bonus
Dataset à utiliser : DBpedia.
- Dans un premier temps, compléter les triplets de
dbpediaShortName8M
avec le type de leurs noeuds qui se trouvent dansdbpediaShortNameTypeFor8M.txt
. - Combien de sujets ont aucun type, exactement un type, au moins 2 types ? 3 nombres à calculer.
- Pour chaque type, retourner le nombre de sujets distincts ayant ce type, et le nombre d'objets distincts ayant ce type.
site/enseignement/master/bdle/tmes/algebrespark-dfds.txt · Dernière modification : de hubert