- Descrizione :
Questo set di dati contiene un grafico sparso che rappresenta la struttura dei collegamenti Web per un piccolo sottoinsieme del Web.
È una versione elaborata di una singola scansione eseguita da CommonCrawl nel 2021 in cui rimuoviamo tutto e manteniamo solo la struttura link->outlink. Il set di dati finale è fondamentalmente int -> formato List[int] con ogni ID intero che rappresenta un URL.
Inoltre, al fine di aumentare il valore di questa risorsa, abbiamo creato 6 diverse versioni di WebGraph, ognuna delle quali varia nel modello di scarsità e nelle impostazioni locali. Abbiamo eseguito le seguenti fasi di lavorazione, nell'ordine:
- Abbiamo iniziato con i file WAT della scansione di giugno 2021.
- Poiché i collegamenti in uscita nei metadati di risposta HTTP sono archiviati come percorsi relativi, li convertiamo in percorsi assoluti utilizzando urllib dopo aver convalidato ciascun collegamento.
- Per studiare i grafici specifici delle impostazioni locali, filtriamo ulteriormente in base a 2 domini di primo livello: "de" e "in", ognuno dei quali produce un grafico con un numero di nodi inferiore di un ordine di grandezza.
- Questi grafici possono ancora avere schemi di sparsità arbitrari e collegamenti penzolanti. Quindi filtriamo ulteriormente i nodi in ogni grafo per avere un minimo di K ∈ [10, 50] collegamenti in entrata e in uscita. Si noti che eseguiamo questa elaborazione solo una volta, quindi questa è ancora un'approssimazione, ovvero il grafico risultante potrebbe avere nodi con meno di K collegamenti.
- Utilizzando sia i filtri locali che quelli di conteggio, finalizziamo 6 versioni del set di dati WebGraph, riassunte nella seguente tabella.
Versione | Dominio di primo livello | Conteggio minimo | Num nodi | Num bordi |
---|---|---|---|---|
scarso | 10 | 365,4 milioni | 30b | |
denso | 50 | 136,5M | 22b | |
de-sparse | de | 10 | 19,7 M | 1.19 B |
denso | de | 50 | 5,7 milioni | 0,82 miliardi |
in-sparso | in | 10 | 1,5 M | 0,14 miliardi |
denso | in | 50 | 0,5 M | 0,12 miliardi |
Tutte le versioni del set di dati hanno le seguenti caratteristiche:
- "row_tag": un identificatore univoco della riga (link alla fonte).
- "col_tag": un elenco di identificatori univoci di colonne diverse da zero (dest outlink).
"gt_tag": un elenco di identificatori univoci di colonne diverse da zero utilizzate come verità fondamentale (dest outlink), vuoto per le divisioni train/train_t.
Pagina iniziale : https://arxiv.org/abs/2112.02194
Codice sorgente :
tfds.structured.web_graph.WebGraph
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
col_tag | Sequenza (tensore) | (Nessuno,) | int64 | |
gt_tag | Sequenza (tensore) | (Nessuno,) | int64 | |
tag_riga | Tensore | int64 |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (configurazione predefinita)
Descrizione della configurazione : WebGraph-sparse contiene circa 30 miliardi di bordi e circa 365 milioni di nodi.
Dimensione del set di dati:
273.38 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 39.871.321 |
'train' | 372.049.054 |
'train_t' | 410.867.007 |
- Esempi ( tfds.as_dataframe ):
web_graph/denso
Descrizione della configurazione : WebGraph-dense contiene circa 22 miliardi di bordi e circa 136,5 milioni di nodi.
Dimensione del set di dati:
170.87 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 13.256.496 |
'train' | 122.815.749 |
'train_t' | 136.019.364 |
- Esempi ( tfds.as_dataframe ):
web_graph/de-sparse
Descrizione della configurazione : WebGraph-de-sparse contiene circa 1,19 miliardi di bordi e circa 19,7 milioni di nodi.
Dimensione del set di dati:
10.25 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.903.443 |
'train' | 17.688.633 |
'train_t' | 19.566.045 |
- Esempi ( tfds.as_dataframe ):
web_graph/dedenso
Descrizione della configurazione : WebGraph-de-dense contiene circa 0,82 miliardi di spigoli e circa 5,7 milioni di nodi.
Dimensione del set di dati :
5.90 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 553.270 |
'train' | 5.118.902 |
'train_t' | 5.672.473 |
- Esempi ( tfds.as_dataframe ):
web_graph/in-sparso
Descrizione della configurazione : WebGraph-de-sparse contiene circa 0,14 miliardi di bordi e circa 1,5 milioni di nodi.
Dimensione del set di dati:
960.57 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 140.313 |
'train' | 1.309.063 |
'train_t' | 1.445.042 |
- Esempi ( tfds.as_dataframe ):
web_graph/in-denso
Descrizione della configurazione : WebGraph-de-dense contiene circa 0,12 miliardi di spigoli e circa 0,5 milioni di nodi.
Dimensione del set di dati:
711.72 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 47.894 |
'train' | 443.786 |
'train_t' | 491.634 |
- Esempi ( tfds.as_dataframe ):