web_graph

  • Açıklama :

Bu veri kümesi, Web'in küçük bir alt kümesi için web bağlantı yapısını temsil eden seyrek bir grafik içerir.

2021'de CommonCrawl tarafından gerçekleştirilen ve her şeyi çıkardığımız ve yalnızca link->outlinks yapısını koruduğumuz tek bir taramanın işlenmiş bir versiyonu. Nihai veri kümesi temel olarak int -> List[int] biçimindedir ve her tamsayı kimliği bir url'yi temsil eder.

Ayrıca, bu kaynağın değerini artırmak için, WebGraph'ın her biri seyreklik düzeninde ve yerel ayarda değişen 6 farklı sürümünü oluşturduk. Sırasıyla aşağıdaki işleme adımlarını gerçekleştirdik:

  • Haziran 2021 taramasından WAT dosyalarıyla başladık.
  • HTTP-Response-Metadata'daki çıkış bağlantıları göreceli yollar olarak depolandığından, her bağlantıyı doğruladıktan sonra urllib kullanarak bunları mutlak yollara dönüştürürüz.
  • Yerele özgü grafikleri incelemek için, 2 üst düzey alana dayalı olarak ayrıca filtreleme yaparız: 'de' ve 'in', her biri büyüklük sırasına göre daha az sayıda düğüm içeren bir grafik üretir.
  • Bu grafikler hala gelişigüzel seyreklik modellerine ve sarkan bağlantılara sahip olabilir. Böylece, her grafikteki düğümleri minimum K ∈ [10, 50] iç bağlantı ve çıkış bağlantıya sahip olacak şekilde filtreliyoruz. Bu işlemeyi yalnızca bir kez yaptığımıza dikkat edin, bu nedenle bu hala yaklaşık bir değerdir, yani elde edilen grafik K'den az bağlantıya sahip düğümlere sahip olabilir.
  • Hem yerel ayar hem de sayım filtrelerini kullanarak, aşağıdaki tabloda özetlenen WebGraph veri setinin 6 versiyonunu sonlandırdık.
Sürüm Üst düzey alan Minimum sayım Düğüm sayısı kenar sayısı
seyrek 10 365.4 milyon 30B
yoğun 50 136.5 Milyon 22B
seyreltmek de 10 19.7 Milyon 1.19B
yoğunluğunu azaltmak de 50 5.7 Milyon 0,82 milyar
seyrek içinde 10 1.5M 0,14 milyar
yoğun içinde 50 0,5 Milyon 0,12 milyar

Veri kümesinin tüm sürümleri aşağıdaki özelliklere sahiptir:

  • "row_tag": satırın benzersiz tanımlayıcısı (kaynak bağlantı).
  • "col_tag": sıfır olmayan sütunların (hedef çıkış bağlantıları) benzersiz tanımlayıcılarının bir listesi.
  • "gt_tag": temel gerçek (hedef çıkış bağlantıları) olarak kullanılan sıfır olmayan sütunların benzersiz tanımlayıcılarının bir listesi, train/train_t bölmeleri için boş.

  • Anasayfa : https://arxiv.org/abs/2112.02194

  • Kaynak kodu : tfds.structured.web_graph.WebGraph

  • sürümler :

    • 1.0.0 (varsayılan): İlk sürüm.
  • İndirme boyutu : Unknown size

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • Özellik yapısı :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
col_tag Sıra(Tensor) (Hiçbiri,) int64
gt_tag Sıra(Tensor) (Hiçbiri,) int64
satır_etiketi tensör int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (varsayılan yapılandırma)

  • Yapılandırma açıklaması : WebGraph-sparse, yaklaşık 30 milyar kenar ve yaklaşık 365 milyon düğüm içerir.

  • Veri kümesi boyutu : 273.38 GiB

  • bölmeler :

Bölmek örnekler
'test' 39.871.321
'train' 372.049.054
'train_t' 410.867.007

web_graph/yoğun

  • Yapılandırma açıklaması : WebGraph-dense, yaklaşık 22 milyar kenar ve yaklaşık 136,5 milyon düğüm içerir.

  • Veri kümesi boyutu : 170.87 GiB

  • bölmeler :

Bölmek örnekler
'test' 13.256.496
'train' 122.815.749
'train_t' 136.019.364

web_graph/de-seyrek

  • Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 1,19 milyar kenar ve yaklaşık 19,7 milyon düğüm içerir.

  • Veri kümesi boyutu : 10.25 GiB

  • bölmeler :

Bölmek örnekler
'test' 1.903.443
'train' 17.688.633
'train_t' 19.566.045

web_graph/yoğunluğu azalt

  • Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0,82 milyar kenar ve yaklaşık 5,7 milyon düğüm içerir.

  • Veri kümesi boyutu : 5.90 GiB

  • bölmeler :

Bölmek örnekler
'test' 553.270
'train' 5.118.902
'train_t' 5.672.473

web_graph/in-seyrek

  • Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 0,14 milyar kenar ve yaklaşık 1,5 milyon düğüm içerir.

  • Veri kümesi boyutu : 960.57 MiB

  • bölmeler :

Bölmek örnekler
'test' 140.313
'train' 1.309.063
'train_t' 1.445.042

web_graph/yoğun

  • Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0,12 milyar kenar ve yaklaşık 0,5 milyon düğüm içerir.

  • Veri kümesi boyutu : 711.72 MiB

  • bölmeler :

Bölmek örnekler
'test' 47.894
'train' 443.786
'train_t' 491.634