- Açıklama :
Bu veri kümesi, Web'in küçük bir alt kümesi için web bağlantı yapısını temsil eden seyrek bir grafik içerir.
2021'de CommonCrawl tarafından gerçekleştirilen ve her şeyi çıkardığımız ve yalnızca link->outlinks yapısını koruduğumuz tek bir taramanın işlenmiş bir versiyonu. Nihai veri kümesi temel olarak int -> List[int] biçimindedir ve her tamsayı kimliği bir url'yi temsil eder.
Ayrıca, bu kaynağın değerini artırmak için, WebGraph'ın her biri seyreklik düzeninde ve yerel ayarda değişen 6 farklı sürümünü oluşturduk. Sırasıyla aşağıdaki işleme adımlarını gerçekleştirdik:
- Haziran 2021 taramasından WAT dosyalarıyla başladık.
- HTTP-Response-Metadata'daki çıkış bağlantıları göreceli yollar olarak depolandığından, her bağlantıyı doğruladıktan sonra urllib kullanarak bunları mutlak yollara dönüştürürüz.
- Yerele özgü grafikleri incelemek için, 2 üst düzey alana dayalı olarak ayrıca filtreleme yaparız: 'de' ve 'in', her biri büyüklük sırasına göre daha az sayıda düğüm içeren bir grafik üretir.
- Bu grafikler hala gelişigüzel seyreklik modellerine ve sarkan bağlantılara sahip olabilir. Böylece, her grafikteki düğümleri minimum K ∈ [10, 50] iç bağlantı ve çıkış bağlantıya sahip olacak şekilde filtreliyoruz. Bu işlemeyi yalnızca bir kez yaptığımıza dikkat edin, bu nedenle bu hala yaklaşık bir değerdir, yani elde edilen grafik K'den az bağlantıya sahip düğümlere sahip olabilir.
- Hem yerel ayar hem de sayım filtrelerini kullanarak, aşağıdaki tabloda özetlenen WebGraph veri setinin 6 versiyonunu sonlandırdık.
Sürüm | Üst düzey alan | Minimum sayım | Düğüm sayısı | kenar sayısı |
---|---|---|---|---|
seyrek | 10 | 365.4 milyon | 30B | |
yoğun | 50 | 136.5 Milyon | 22B | |
seyreltmek | de | 10 | 19.7 Milyon | 1.19B |
yoğunluğunu azaltmak | de | 50 | 5.7 Milyon | 0,82 milyar |
seyrek | içinde | 10 | 1.5M | 0,14 milyar |
yoğun | içinde | 50 | 0,5 Milyon | 0,12 milyar |
Veri kümesinin tüm sürümleri aşağıdaki özelliklere sahiptir:
- "row_tag": satırın benzersiz tanımlayıcısı (kaynak bağlantı).
- "col_tag": sıfır olmayan sütunların (hedef çıkış bağlantıları) benzersiz tanımlayıcılarının bir listesi.
"gt_tag": temel gerçek (hedef çıkış bağlantıları) olarak kullanılan sıfır olmayan sütunların benzersiz tanımlayıcılarının bir listesi, train/train_t bölmeleri için boş.
Anasayfa : https://arxiv.org/abs/2112.02194
Kaynak kodu :
tfds.structured.web_graph.WebGraph
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
col_tag | Sıra(Tensor) | (Hiçbiri,) | int64 | |
gt_tag | Sıra(Tensor) | (Hiçbiri,) | int64 | |
satır_etiketi | tensör | int64 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (varsayılan yapılandırma)
Yapılandırma açıklaması : WebGraph-sparse, yaklaşık 30 milyar kenar ve yaklaşık 365 milyon düğüm içerir.
Veri kümesi boyutu :
273.38 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 39.871.321 |
'train' | 372.049.054 |
'train_t' | 410.867.007 |
- Örnekler ( tfds.as_dataframe ):
web_graph/yoğun
Yapılandırma açıklaması : WebGraph-dense, yaklaşık 22 milyar kenar ve yaklaşık 136,5 milyon düğüm içerir.
Veri kümesi boyutu :
170.87 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 13.256.496 |
'train' | 122.815.749 |
'train_t' | 136.019.364 |
- Örnekler ( tfds.as_dataframe ):
web_graph/de-seyrek
Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 1,19 milyar kenar ve yaklaşık 19,7 milyon düğüm içerir.
Veri kümesi boyutu :
10.25 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 1.903.443 |
'train' | 17.688.633 |
'train_t' | 19.566.045 |
- Örnekler ( tfds.as_dataframe ):
web_graph/yoğunluğu azalt
Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0,82 milyar kenar ve yaklaşık 5,7 milyon düğüm içerir.
Veri kümesi boyutu :
5.90 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 553.270 |
'train' | 5.118.902 |
'train_t' | 5.672.473 |
- Örnekler ( tfds.as_dataframe ):
web_graph/in-seyrek
Yapılandırma açıklaması : WebGraph-de-sparse, yaklaşık 0,14 milyar kenar ve yaklaşık 1,5 milyon düğüm içerir.
Veri kümesi boyutu :
960.57 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 140.313 |
'train' | 1.309.063 |
'train_t' | 1.445.042 |
- Örnekler ( tfds.as_dataframe ):
web_graph/yoğun
Yapılandırma açıklaması : WebGraph-de-dense, yaklaşık 0,12 milyar kenar ve yaklaşık 0,5 milyon düğüm içerir.
Veri kümesi boyutu :
711.72 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 47.894 |
'train' | 443.786 |
'train_t' | 491.634 |
- Örnekler ( tfds.as_dataframe ):