Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:dataset

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
site:enseignement:master:bdle:tmes:dataset [19/10/2017 10:18] – [DBPedia] hubertsite:enseignement:master:bdle:tmes:dataset [12/10/2019 18:39] (Version actuelle) – [Jeux de données] hubert
Ligne 1: Ligne 1:
-{{indexmenu_n>6}}+{{indexmenu_n>2}}
  
  
Ligne 5: Ligne 5:
  
 Cette page liste les jeux de données utilisables pour les TME de BDLE. Cette page liste les jeux de données utilisables pour les TME de BDLE.
 +Ils sont disponibles en ligne dans [[https://nuage.lip6.fr/s/PQM3RgR4FRnMPQ9|PUBLIC_DATASET]] ou localement dans /Infos/bd/spark/dataset
 +
 +
  
 Préparation : créer un répertoire /tmp/BDLE/dataset pour disposer temporairement des données. Préparation : créer un répertoire /tmp/BDLE/dataset pour disposer temporairement des données.
Ligne 52: Ligne 55:
 more dbpediaShortName8M.txt more dbpediaShortName8M.txt
 </code> </code>
-Le séparateur de champ est le caractère tabulation "\t" (s'écrit "\\t" en scala)+Le séparateur de champ est le caractère tabulation "\t" (écrire split("\\t"en scala)
  
  
Ligne 61: Ligne 64:
 </code> </code>
  
 +==== YAGO ====
  
 +Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété, objet)
 +
 +Le jeux de données Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets :
 +  * on considère seulement les faits : ce sont les triplets reliant deux ressources  (aucun littéral).
 +  * on ne garde que les faits concernant un sujet relié à au moins 5 objets (ie. il y a au moins 5 faits dans Yago3 pour ce sujet), et un objet relié à au moins 5 sujets.
 +
 +Pour récupérer les triplets :
 +<code bash>
 +cd /tmp/BDLE/dataset
 +tar zxvf /Infos/bd/spark/dataset/yago/yagoFacts5M.tgz
 +more yagoFacts5M.txt
 +</code>
 +Le séparateur de champ est le caractère tabulation "\t" (écrire split("\\t") en scala)
 +
 +Les propriétés existant dans le dataset sont les suivantes (on donne leur nom et leur frequence)
 +<code bash>
 +more /Infos/bd/spark/dataset/yago/yagoFacts5M_properties.txt
 +</code>
 +
 +=== YAGO2 ===
 +La dataset YAGO2 créé en 2012 contient 4 millions de faits et les **types** des individus
 +<code bash>
 +tar zxvf /Infos/bd/spark/dataset/yago/YAGO2_2012_facts_schema_simpletypes.tgz
 +</code>
 +
 +
 +
 +
 +Pour aller plus loin, vous avez la possibilité de télécharger les  [[https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/|fichiers de YAGO]], en particulier le fichier 
 +[[http://resources.mpi-inf.mpg.de/yago-naga/yago3.1/yagoFacts.tsv.7z|yagofacts]] contenant les 12 millions de faits de Yago3.
  
  
Ligne 97: Ligne 131:
 </code> </code>
  
-==== YAGO ==== + 
-Telecharger les  [[https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/|fichiers de YAGO]], en particulier le fichier  + 
-[[http://resources.mpi-inf.mpg.de/yago-naga/yago3.1/yagoFacts.tsv.7z|yagofacts]] contenant les faits : ce sont les triplets (s,p,o) dont l'objet o est une ressource et non un littéral.+Retour vers les [[site:enseignement:master:bdle:tmes:]]
site/enseignement/master/bdle/tmes/dataset.1508401126.txt.gz · Dernière modification : de hubert