site:enseignement:master:bdle:tmes:dataset
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
site:enseignement:master:bdle:tmes:dataset [17/10/2017 08:30] – [Facebook] hubert | site:enseignement:master:bdle:tmes:dataset [12/10/2019 18:39] (Version actuelle) – [Jeux de données] hubert | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | {{indexmenu_n> | + | {{indexmenu_n> |
Ligne 5: | Ligne 5: | ||
Cette page liste les jeux de données utilisables pour les TME de BDLE. | Cette page liste les jeux de données utilisables pour les TME de BDLE. | ||
+ | Ils sont disponibles en ligne dans [[https:// | ||
+ | |||
+ | |||
Préparation : créer un répertoire / | Préparation : créer un répertoire / | ||
Ligne 42: | Ligne 45: | ||
Pour lister le nom des 50 propriétés les plus fréquentes : | Pour lister le nom des 50 propriétés les plus fréquentes : | ||
<code bash> | <code bash> | ||
- | cp / | + | cp / |
- | more / | + | more / |
</ | </ | ||
Ligne 49: | Ligne 52: | ||
<code bash> | <code bash> | ||
cd / | cd / | ||
- | tar zxvf / | + | tar zxvf / |
- | more dbpedia8M.txt | + | more dbpediaShortName8M.txt |
</ | </ | ||
- | Le séparateur de champ est le caractère tabulation " | + | Le séparateur de champ est le caractère tabulation " |
- | On donne aussi les triplets décrivant le **type** des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est ''< | + | On donne aussi les triplets décrivant le **type** des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est '' |
Pour récupérer les types : | Pour récupérer les types : | ||
+ | <code bash> | ||
+ | cp / | ||
+ | </ | ||
+ | |||
+ | ==== YAGO ==== | ||
+ | |||
+ | Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété, | ||
+ | |||
+ | Le jeux de données Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets : | ||
+ | * on considère seulement les faits : ce sont les triplets reliant deux ressources | ||
+ | * on ne garde que les faits concernant un sujet relié à au moins 5 objets (ie. il y a au moins 5 faits dans Yago3 pour ce sujet), et un objet relié à au moins 5 sujets. | ||
+ | |||
+ | Pour récupérer les triplets : | ||
<code bash> | <code bash> | ||
cd / | cd / | ||
- | cp / | + | tar zxvf / |
+ | more yagoFacts5M.txt | ||
</ | </ | ||
+ | Le séparateur de champ est le caractère tabulation " | ||
+ | |||
+ | Les propriétés existant dans le dataset sont les suivantes (on donne leur nom et leur frequence) | ||
+ | <code bash> | ||
+ | more / | ||
+ | </ | ||
+ | |||
+ | === YAGO2 === | ||
+ | La dataset YAGO2 créé en 2012 contient 4 millions de faits et les **types** des individus | ||
+ | <code bash> | ||
+ | tar zxvf / | ||
+ | </ | ||
+ | |||
+ | |||
+ | Pour aller plus loin, vous avez la possibilité de télécharger les [[https:// | ||
+ | [[http:// | ||
Ligne 98: | Ligne 131: | ||
</ | </ | ||
- | ==== YAGO ==== | + | |
- | Telecharger | + | |
- | [[http:// | + | Retour vers les [[site:enseignement: |
site/enseignement/master/bdle/tmes/dataset.1508221834.txt.gz · Dernière modification : de hubert