web_graph

  • Deskripsi :

Kumpulan data ini berisi grafik renggang yang mewakili struktur tautan web untuk sebagian kecil dari Web.

Ini adalah versi yang diproses dari satu perayapan yang dilakukan oleh CommonCrawl pada tahun 2021 di mana kami menghapus semuanya dan hanya menyimpan struktur link->outlinks. Kumpulan data terakhir pada dasarnya adalah format int -> List[int] dengan setiap id bilangan bulat mewakili url.

Selain itu, untuk meningkatkan nilai sumber daya ini, kami membuat 6 versi WebGraph yang berbeda, masing-masing bervariasi dalam pola sparsity dan lokal. Kami mengambil langkah-langkah pemrosesan berikut, secara berurutan:

  • Kami mulai dengan file WAT dari perayapan Juni 2021.
  • Karena tautan dalam HTTP-Response-Metadata disimpan sebagai jalur relatif, kami mengubahnya menjadi jalur absolut menggunakan urllib setelah memvalidasi setiap tautan.
  • Untuk mempelajari grafik khusus lokal, kami memfilter lebih lanjut berdasarkan 2 domain tingkat atas: 'de' dan 'in', masing-masing menghasilkan grafik dengan urutan besarnya lebih sedikit jumlah node.
  • Grafik ini masih dapat memiliki pola ketersebaran yang sewenang-wenang dan tautan yang menjuntai. Jadi kami lebih lanjut memfilter node di setiap grafik untuk memiliki minimum K ∈ [10, 50] inlink dan outlink. Perhatikan bahwa kami hanya melakukan pemrosesan ini sekali, sehingga ini masih merupakan perkiraan, yaitu grafik yang dihasilkan mungkin memiliki simpul dengan tautan kurang dari K.
  • Dengan menggunakan filter lokal dan hitungan, kami menyelesaikan 6 versi kumpulan data WebGraph, yang dirangkum dalam tabel berikut.
Versi: kapan Domain tingkat atas hitungan min Jumlah node Jumlah tepi
jarang 10 365,4 juta 30B
padat 50 136,5 juta 22B
de-jarang de 10 19,7 juta 1.19B
de-padat de 50 5,7 juta 0,82B
jarang di 10 1,5 juta 0,14B
padat di 50 0,5 juta 0,12B

Semua versi kumpulan data memiliki fitur berikut:

  • "row_tag": pengidentifikasi unik dari baris (tautan sumber).
  • "col_tag": daftar pengidentifikasi unik kolom bukan nol (outlink tujuan).
  • "gt_tag": daftar pengidentifikasi unik kolom bukan nol yang digunakan sebagai ground truth (dest outlinks), kosong untuk pemisahan train/train_t.

  • Beranda : https://arxiv.org/abs/2112.02194

  • Kode sumber : tfds.structured.web_graph.WebGraph

  • Versi :

    • 1.0.0 (default): Rilis awal.
  • Ukuran unduhan : Unknown size

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Struktur fitur :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
col_tag Urutan (Tensor) (Tidak ada,) int64
gt_tag Urutan (Tensor) (Tidak ada,) int64
tag_baris Tensor int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (konfigurasi default)

  • Deskripsi konfigurasi : WebGraph-sparse berisi sekitar 30B edge dan sekitar 365M node.

  • Ukuran dataset : 273.38 GiB

  • Perpecahan :

Membelah Contoh
'test' 39.871.321
'train' 372.049.054
'train_t' 410.867.007

grafik_web/padat

  • Deskripsi konfigurasi : WebGraph-dense berisi sekitar 22B edge dan sekitar 136,5M node.

  • Ukuran dataset : 170.87 GiB

  • Perpecahan :

Membelah Contoh
'test' 13.256.496
'train' 122.815.749
'train_t' 136.019.364

web_graph/de-sparse

  • Deskripsi konfigurasi : WebGraph-de-sparse berisi sekitar 1,19B edge dan sekitar 19,7M node.

  • Ukuran dataset : 10.25 GiB

  • Perpecahan :

Membelah Contoh
'test' 1.903.443
'train' 17.688.633
'train_t' 19.566.045

web_graph/de-dense

  • Deskripsi konfigurasi : WebGraph-de-dense berisi sekitar 0,82B edge dan sekitar 5,7M node.

  • Ukuran dataset : 5.90 GiB

  • Perpecahan :

Membelah Contoh
'test' 553.270
'train' 5.118.902
'train_t' 5.672.473

web_graph/in-sparse

  • Deskripsi konfigurasi : WebGraph-de-sparse berisi sekitar 0,14B edge dan sekitar 1,5M node.

  • Ukuran dataset : 960.57 MiB

  • Perpecahan :

Membelah Contoh
'test' 140.313
'train' 1.309.063
'train_t' 1.445.042

web_graph/padat

  • Deskripsi konfigurasi : WebGraph-de-dense berisi sekitar 0,12B edge dan sekitar 0,5M node.

  • Ukuran dataset : 711.72 MiB

  • Perpecahan :

Membelah Contoh
'test' 47.894
'train' 443.786
'train_t' 491.634