- Deskripsi :
Kumpulan data ini berisi grafik renggang yang mewakili struktur tautan web untuk sebagian kecil dari Web.
Ini adalah versi yang diproses dari satu perayapan yang dilakukan oleh CommonCrawl pada tahun 2021 di mana kami menghapus semuanya dan hanya menyimpan struktur link->outlinks. Kumpulan data terakhir pada dasarnya adalah format int -> List[int] dengan setiap id bilangan bulat mewakili url.
Selain itu, untuk meningkatkan nilai sumber daya ini, kami membuat 6 versi WebGraph yang berbeda, masing-masing bervariasi dalam pola sparsity dan lokal. Kami mengambil langkah-langkah pemrosesan berikut, secara berurutan:
- Kami mulai dengan file WAT dari perayapan Juni 2021.
- Karena tautan dalam HTTP-Response-Metadata disimpan sebagai jalur relatif, kami mengubahnya menjadi jalur absolut menggunakan urllib setelah memvalidasi setiap tautan.
- Untuk mempelajari grafik khusus lokal, kami memfilter lebih lanjut berdasarkan 2 domain tingkat atas: 'de' dan 'in', masing-masing menghasilkan grafik dengan urutan besarnya lebih sedikit jumlah node.
- Grafik ini masih dapat memiliki pola ketersebaran yang sewenang-wenang dan tautan yang menjuntai. Jadi kami lebih lanjut memfilter node di setiap grafik untuk memiliki minimum K ∈ [10, 50] inlink dan outlink. Perhatikan bahwa kami hanya melakukan pemrosesan ini sekali, sehingga ini masih merupakan perkiraan, yaitu grafik yang dihasilkan mungkin memiliki simpul dengan tautan kurang dari K.
- Dengan menggunakan filter lokal dan hitungan, kami menyelesaikan 6 versi kumpulan data WebGraph, yang dirangkum dalam tabel berikut.
Versi: kapan | Domain tingkat atas | hitungan min | Jumlah node | Jumlah tepi |
---|---|---|---|---|
jarang | 10 | 365,4 juta | 30B | |
padat | 50 | 136,5 juta | 22B | |
de-jarang | de | 10 | 19,7 juta | 1.19B |
de-padat | de | 50 | 5,7 juta | 0,82B |
jarang | di | 10 | 1,5 juta | 0,14B |
padat | di | 50 | 0,5 juta | 0,12B |
Semua versi kumpulan data memiliki fitur berikut:
- "row_tag": pengidentifikasi unik dari baris (tautan sumber).
- "col_tag": daftar pengidentifikasi unik kolom bukan nol (outlink tujuan).
"gt_tag": daftar pengidentifikasi unik kolom bukan nol yang digunakan sebagai ground truth (dest outlinks), kosong untuk pemisahan train/train_t.
Beranda : https://arxiv.org/abs/2112.02194
Kode sumber :
tfds.structured.web_graph.WebGraph
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
col_tag | Urutan (Tensor) | (Tidak ada,) | int64 | |
gt_tag | Urutan (Tensor) | (Tidak ada,) | int64 | |
tag_baris | Tensor | int64 |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (konfigurasi default)
Deskripsi konfigurasi : WebGraph-sparse berisi sekitar 30B edge dan sekitar 365M node.
Ukuran dataset :
273.38 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 39.871.321 |
'train' | 372.049.054 |
'train_t' | 410.867.007 |
- Contoh ( tfds.as_dataframe ):
grafik_web/padat
Deskripsi konfigurasi : WebGraph-dense berisi sekitar 22B edge dan sekitar 136,5M node.
Ukuran dataset :
170.87 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 13.256.496 |
'train' | 122.815.749 |
'train_t' | 136.019.364 |
- Contoh ( tfds.as_dataframe ):
web_graph/de-sparse
Deskripsi konfigurasi : WebGraph-de-sparse berisi sekitar 1,19B edge dan sekitar 19,7M node.
Ukuran dataset :
10.25 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.903.443 |
'train' | 17.688.633 |
'train_t' | 19.566.045 |
- Contoh ( tfds.as_dataframe ):
web_graph/de-dense
Deskripsi konfigurasi : WebGraph-de-dense berisi sekitar 0,82B edge dan sekitar 5,7M node.
Ukuran dataset :
5.90 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 553.270 |
'train' | 5.118.902 |
'train_t' | 5.672.473 |
- Contoh ( tfds.as_dataframe ):
web_graph/in-sparse
Deskripsi konfigurasi : WebGraph-de-sparse berisi sekitar 0,14B edge dan sekitar 1,5M node.
Ukuran dataset :
960.57 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 140.313 |
'train' | 1.309.063 |
'train_t' | 1.445.042 |
- Contoh ( tfds.as_dataframe ):
web_graph/padat
Deskripsi konfigurasi : WebGraph-de-dense berisi sekitar 0,12B edge dan sekitar 0,5M node.
Ukuran dataset :
711.72 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 47.894 |
'train' | 443.786 |
'train_t' | 491.634 |
- Contoh ( tfds.as_dataframe ):