- विवरण :
इस डेटासेट में वेब के एक छोटे उपसमुच्चय के लिए वेब लिंक संरचना का प्रतिनिधित्व करने वाला विरल ग्राफ है।
यह 2021 में कॉमनक्रॉल द्वारा किए गए एकल क्रॉल का एक संसाधित संस्करण है जहां हम सब कुछ हटा देते हैं और केवल लिंक->आउटलिंक संरचना रखते हैं। अंतिम डेटासेट मूल रूप से int -> सूची [int] प्रारूप है जिसमें प्रत्येक पूर्णांक आईडी यूआरएल का प्रतिनिधित्व करता है।
इसके अलावा, इस संसाधन के मूल्य को बढ़ाने के लिए, हमने वेबग्राफ के 6 अलग-अलग संस्करण बनाए, जिनमें से प्रत्येक स्पार्सिटी पैटर्न और लोकेल में भिन्न है। हमने क्रम में निम्नलिखित प्रसंस्करण कदम उठाए:
- हमने जून 2021 से WAT फ़ाइलों को क्रॉल करना शुरू किया।
- चूंकि HTTP-प्रतिक्रिया-मेटाडेटा में आउटलिंक सापेक्ष पथ के रूप में संग्रहीत हैं, हम प्रत्येक लिंक को मान्य करने के बाद urllib का उपयोग करके उन्हें पूर्ण पथ में परिवर्तित करते हैं।
- स्थानीय-विशिष्ट ग्राफ़ का अध्ययन करने के लिए, हम आगे 2 शीर्ष स्तर के डोमेन के आधार पर फ़िल्टर करते हैं: 'डी' और 'इन', प्रत्येक परिमाण कम संख्या में नोड्स के क्रम के साथ एक ग्राफ़ उत्पन्न करता है।
- इन ग्राफ़ में अभी भी मनमाना स्पार्सिटी पैटर्न और झूलने वाले लिंक हो सकते हैं। इस प्रकार हम प्रत्येक ग्राफ में नोड्स को न्यूनतम K ∈ [10, 50] इनलिंक्स और आउटलिंक्स के लिए फ़िल्टर करते हैं। ध्यान दें कि हम इस प्रसंस्करण को केवल एक बार करते हैं, इस प्रकार यह अभी भी एक सन्निकटन है अर्थात परिणामी ग्राफ में K से कम लिंक वाले नोड हो सकते हैं।
- लोकेल और काउंट फिल्टर दोनों का उपयोग करते हुए, हम वेबग्राफ डेटासेट के 6 संस्करणों को अंतिम रूप देते हैं, जिन्हें निम्नलिखित तालिका में संक्षेपित किया गया है।
संस्करण | शीर्ष स्तर का डोमेन | मिन गिनती | नोड्स की संख्या | किनारों की संख्या |
---|---|---|---|---|
विरल | 10 | 365.4एम | 30बी | |
सघन | 50 | 136.5एम | 22बी | |
विरल | डे | 10 | 19.7 मी | 1.19बी |
डी-घना | डे | 50 | 5.7M | 0.82बी |
विरल | में | 10 | 1.5 मी | 0.14बी |
घने | में | 50 | 0.5 मी | 0.12बी |
डेटासेट के सभी संस्करणों में निम्नलिखित विशेषताएं हैं:
- "row_tag": पंक्ति का एक विशिष्ट पहचानकर्ता (स्रोत लिंक)।
- "col_tag": गैर-शून्य कॉलम (गंतव्य आउटलिंक) के अद्वितीय पहचानकर्ताओं की सूची।
"gt_tag": जमीनी सच्चाई (गंतव्य आउटलिंक्स) के रूप में उपयोग किए जाने वाले गैर-शून्य स्तंभों के अद्वितीय पहचानकर्ताओं की सूची, ट्रेन/train_t विभाजन के लिए खाली।
होमपेज : https://arxiv.org/abs/2112.02194
स्रोत कोड :
tfds.structured.web_graph.WebGraph
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
Unknown size
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
col_tag | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int64 | |
gt_tag | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int64 | |
row_tag | टेन्सर | int64 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (डिफ़ॉल्ट कॉन्फ़िगरेशन)
विन्यास विवरण : वेबग्राफ-स्पार्स में लगभग 30B किनारों और लगभग 365M नोड्स होते हैं।
डेटासेट का आकार :
273.38 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- उदाहरण ( tfds.as_dataframe ):
web_graph/dense
विन्यास विवरण : वेबग्राफ-घने में लगभग 22B किनारों और लगभग 136.5M नोड्स होते हैं।
डेटासेट का आकार :
170.87 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- उदाहरण ( tfds.as_dataframe ):
web_graph/de-sparse
कॉन्फ़िग विवरण : WebGraph-de-sparse में लगभग 1.19B किनारे और लगभग 19.7M नोड होते हैं।
डेटासेट का आकार :
10.25 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- उदाहरण ( tfds.as_dataframe ):
वेब_ग्राफ/डी-डेंस
विन्यास विवरण : वेबग्राफ-डी-डेंस में लगभग 0.82B किनारों और लगभग 5.7M नोड्स होते हैं।
डेटासेट का आकार :
5.90 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | 5,672,473 |
- उदाहरण ( tfds.as_dataframe ):
web_graph/in-sparse
विन्यास विवरण : वेबग्राफ-डी-स्पार्स में लगभग 0.14B किनारों और लगभग 1.5M नोड्स होते हैं।
डेटासेट का आकार :
960.57 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- उदाहरण ( tfds.as_dataframe ):
web_graph/in-dense
कॉन्फ़िग विवरण : WebGraph-de-dense में लगभग 0.12B किनारे और लगभग 0.5M नोड होते हैं।
डेटासेट का आकार :
711.72 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- उदाहरण ( tfds.as_dataframe ):