- Descripción :
Este conjunto de datos contiene un gráfico disperso que representa la estructura de enlaces web para un pequeño subconjunto de la web.
Es una versión procesada de un solo rastreo realizado por CommonCrawl en 2021 donde eliminamos todo y mantenemos solo la estructura de enlace-> enlaces externos. El conjunto de datos final es básicamente el formato int -> List[int] con cada id entero que representa una URL.
Además, para aumentar el valor de este recurso, creamos 6 versiones diferentes de WebGraph, cada una de las cuales varía en el patrón de dispersión y la configuración regional. Tomamos los siguientes pasos de procesamiento, en orden:
- Comenzamos con los archivos WAT del rastreo de junio de 2021.
- Dado que los enlaces externos en HTTP-Response-Metadata se almacenan como rutas relativas, los convertimos en rutas absolutas usando urllib después de validar cada enlace.
- Para estudiar los gráficos específicos de la ubicación, filtramos más en función de 2 dominios de nivel superior: 'de' e 'in', cada uno de los cuales produce un gráfico con un orden de magnitud menos el número de nodos.
- Estos gráficos aún pueden tener patrones de escasez arbitrarios y enlaces colgantes. Por lo tanto, filtramos aún más los nodos en cada gráfico para tener un mínimo de K ∈ [10, 50] enlaces entrantes y salientes. Tenga en cuenta que solo hacemos este procesamiento una vez, por lo que sigue siendo una aproximación, es decir, el gráfico resultante podría tener nodos con menos de K enlaces.
- Utilizando filtros de configuración regional y de conteo, finalizamos 6 versiones del conjunto de datos de WebGraph, que se resumen en la siguiente tabla.
Versión | Dominio de primer nivel | recuento mínimo | número de nodos | Núm. de aristas |
---|---|---|---|---|
escaso | 10 | 365.4M | 30B | |
denso | 50 | 136,5 millones | 22B | |
desparramar | Delaware | 10 | 19,7 millones | 1.19B |
de-denso | Delaware | 50 | 5,7 millones | 0.82B |
en escaso | en | 10 | 1,5 millones | 0.14B |
en-denso | en | 50 | 0.5M | 0.12B |
Todas las versiones del conjunto de datos tienen las siguientes características:
- "row_tag": un identificador único de la fila (enlace de origen).
- "col_tag": una lista de identificadores únicos de columnas distintas de cero (enlaces externos de destino).
"gt_tag": una lista de identificadores únicos de columnas distintas de cero que se utilizan como datos reales (enlaces externos de destino), vacíos para divisiones de tren/tren_t.
Página de inicio: https://arxiv.org/abs/2112.02194
Código fuente :
tfds.structured.web_graph.WebGraph
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
Unknown size
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
col_etiqueta | Secuencia (tensor) | (Ninguna,) | int64 | |
etiqueta_gt | Secuencia (tensor) | (Ninguna,) | int64 | |
fila_etiqueta | Tensor | int64 |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (configuración predeterminada)
Descripción de la configuración : WebGraph-sparse contiene alrededor de 30 B de bordes y alrededor de 365 millones de nodos.
Tamaño del conjunto de datos :
273.38 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 39,871,321 |
'train' | 372.049.054 |
'train_t' | 410,867,007 |
- Ejemplos ( tfds.as_dataframe ):
gráfico_web/denso
Descripción de la configuración : WebGraph-dense contiene alrededor de 22 000 millones de bordes y alrededor de 136,5 millones de nodos.
Tamaño del conjunto de datos :
170.87 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 13,256,496 |
'train' | 122.815.749 |
'train_t' | 136,019,364 |
- Ejemplos ( tfds.as_dataframe ):
web_graph/de-disperso
Descripción de la configuración : WebGraph-de-sparse contiene alrededor de 1.19B de bordes y alrededor de 19.7M de nodos.
Tamaño del conjunto de datos :
10.25 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- Ejemplos ( tfds.as_dataframe ):
web_graph/de-dense
Descripción de la configuración : WebGraph-de-dense contiene alrededor de 0,82B de bordes y alrededor de 5,7M de nodos.
Tamaño del conjunto de datos :
5.90 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | 5,672,473 |
- Ejemplos ( tfds.as_dataframe ):
web_graph/en-disperso
Descripción de la configuración : WebGraph-de-sparse contiene alrededor de 0.14B de bordes y alrededor de 1.5M de nodos.
Tamaño del conjunto de datos :
960.57 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- Ejemplos ( tfds.as_dataframe ):
web_graph/en-denso
Descripción de la configuración : WebGraph-de-dense contiene alrededor de 0.12B de bordes y alrededor de 0.5M de nodos.
Tamaño del conjunto de datos :
711.72 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- Ejemplos ( tfds.as_dataframe ):