- Descriptif :
Cet ensemble de données contient un graphique clairsemé représentant la structure des liens Web pour un petit sous-ensemble du Web.
C'est une version traitée d'un seul crawl effectué par CommonCrawl en 2021 où nous supprimons tout et ne gardons que la structure lien->liens sortants. L'ensemble de données final est essentiellement au format int -> List[int] avec chaque identifiant entier représentant une URL.
De plus, afin d'augmenter la valeur de cette ressource, nous avons créé 6 versions différentes de WebGraph, chacune variant dans le modèle de parcimonie et les paramètres régionaux. Nous avons suivi les étapes de traitement suivantes, dans l'ordre :
- Nous avons commencé avec les fichiers WAT du crawl de juin 2021.
- Étant donné que les liens sortants dans HTTP-Response-Metadata sont stockés sous forme de chemins relatifs, nous les convertissons en chemins absolus à l'aide de urllib après avoir validé chaque lien.
- Pour étudier les graphes spécifiques aux paramètres régionaux, nous filtrons en outre sur la base de 2 domaines de premier niveau : 'de' et 'in', chacun produisant un graphe avec un ordre de grandeur moins le nombre de nœuds.
- Ces graphiques peuvent toujours avoir des modèles de parcimonie arbitraires et des liens pendants. Ainsi, nous filtrons davantage les nœuds dans chaque graphe pour avoir un minimum de K ∈ [10, 50] liens entrants et sortants. Notez que nous ne faisons ce traitement qu'une seule fois, il s'agit donc toujours d'une approximation, c'est-à-dire que le graphe résultant peut avoir des nœuds avec moins de K liens.
- En utilisant à la fois les filtres de paramètres régionaux et de comptage, nous finalisons 6 versions de l'ensemble de données WebGraph, résumées dans le tableau suivant.
Version | Domaine de premier niveau | Nombre minimum | Nb de nœuds | Nombre d'arêtes |
---|---|---|---|---|
clairsemé | dix | 365.4M | 30B | |
dense | 50 | 136.5M | 22B | |
clairsemée | de | dix | 19.7M | 1.19B |
dé-dense | de | 50 | 5.7M | 0.82B |
en clair | dans | dix | 1.5M | 0.14B |
dense | dans | 50 | 0.5M | 0.12B |
Toutes les versions de l'ensemble de données ont les fonctionnalités suivantes :
- "row_tag" : un identifiant unique de la ligne (lien source).
- "col_tag": une liste d'identifiants uniques de colonnes non nulles (dest outlinks).
"gt_tag": une liste d'identifiants uniques de colonnes non nulles utilisées comme vérité terrain (dest outlinks), vide pour les fractionnements train/train_t.
Page d' accueil : https://arxiv.org/abs/2112.02194
Code source :
tfds.structured.web_graph.WebGraph
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
col_tag | Séquence (tenseur) | (Aucun,) | int64 | |
gt_tag | Séquence (tenseur) | (Aucun,) | int64 | |
row_tag | Tenseur | int64 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (configuration par défaut)
Description de la configuration : WebGraph-sparse contient environ 30 B d'arêtes et environ 365 M de nœuds.
Taille du jeu de données :
273.38 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 39 871 321 |
'train' | 372 049 054 |
'train_t' | 410 867 007 |
- Exemples ( tfds.as_dataframe ):
web_graph/dense
Description de la configuration : WebGraph-dense contient environ 22 B d'arêtes et environ 136,5 M de nœuds.
Taille du jeu de données :
170.87 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 13 256 496 |
'train' | 122 815 749 |
'train_t' | 136 019 364 |
- Exemples ( tfds.as_dataframe ):
web_graph/de-sparse
Description de la configuration : WebGraph-de-sparse contient environ 1,19 milliards d'arêtes et environ 19,7 millions de nœuds.
Taille du jeu de données :
10.25 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 903 443 |
'train' | 17 688 633 |
'train_t' | 19 566 045 |
- Exemples ( tfds.as_dataframe ):
web_graph/de-dense
Description de la configuration : WebGraph-de-dense contient environ 0,82 B d'arêtes et environ 5,7 M de nœuds.
Taille du jeu de données :
5.90 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 553 270 |
'train' | 5 118 902 |
'train_t' | 5 672 473 |
- Exemples ( tfds.as_dataframe ):
web_graph/in-sparse
Description de la configuration : WebGraph-de-sparse contient environ 0,14 B d'arêtes et environ 1,5 M de nœuds.
Taille du jeu de données :
960.57 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 140 313 |
'train' | 1 309 063 |
'train_t' | 1 445 042 |
- Exemples ( tfds.as_dataframe ):
web_graph/in-dense
Description de la configuration : WebGraph-de-dense contient environ 0,12 B d'arêtes et environ 0,5 M de nœuds.
Taille du jeu de données :
711.72 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 47 894 |
'train' | 443 786 |
'train_t' | 491 634 |
- Exemples ( tfds.as_dataframe ):