वेब_ग्राफ

  • विवरण :

इस डेटासेट में वेब के एक छोटे उपसमुच्चय के लिए वेब लिंक संरचना का प्रतिनिधित्व करने वाला विरल ग्राफ है।

यह 2021 में कॉमनक्रॉल द्वारा किए गए एकल क्रॉल का एक संसाधित संस्करण है जहां हम सब कुछ हटा देते हैं और केवल लिंक->आउटलिंक संरचना रखते हैं। अंतिम डेटासेट मूल रूप से int -> सूची [int] प्रारूप है जिसमें प्रत्येक पूर्णांक आईडी यूआरएल का प्रतिनिधित्व करता है।

इसके अलावा, इस संसाधन के मूल्य को बढ़ाने के लिए, हमने वेबग्राफ के 6 अलग-अलग संस्करण बनाए, जिनमें से प्रत्येक स्पार्सिटी पैटर्न और लोकेल में भिन्न है। हमने क्रम में निम्नलिखित प्रसंस्करण कदम उठाए:

  • हमने जून 2021 से WAT फ़ाइलों को क्रॉल करना शुरू किया।
  • चूंकि HTTP-प्रतिक्रिया-मेटाडेटा में आउटलिंक सापेक्ष पथ के रूप में संग्रहीत हैं, हम प्रत्येक लिंक को मान्य करने के बाद urllib का उपयोग करके उन्हें पूर्ण पथ में परिवर्तित करते हैं।
  • स्थानीय-विशिष्ट ग्राफ़ का अध्ययन करने के लिए, हम आगे 2 शीर्ष स्तर के डोमेन के आधार पर फ़िल्टर करते हैं: 'डी' और 'इन', प्रत्येक परिमाण कम संख्या में नोड्स के क्रम के साथ एक ग्राफ़ उत्पन्न करता है।
  • इन ग्राफ़ में अभी भी मनमाना स्पार्सिटी पैटर्न और झूलने वाले लिंक हो सकते हैं। इस प्रकार हम प्रत्येक ग्राफ में नोड्स को न्यूनतम K ∈ [10, 50] इनलिंक्स और आउटलिंक्स के लिए फ़िल्टर करते हैं। ध्यान दें कि हम इस प्रसंस्करण को केवल एक बार करते हैं, इस प्रकार यह अभी भी एक सन्निकटन है अर्थात परिणामी ग्राफ में K से कम लिंक वाले नोड हो सकते हैं।
  • लोकेल और काउंट फिल्टर दोनों का उपयोग करते हुए, हम वेबग्राफ डेटासेट के 6 संस्करणों को अंतिम रूप देते हैं, जिन्हें निम्नलिखित तालिका में संक्षेपित किया गया है।
संस्करण शीर्ष स्तर का डोमेन मिन गिनती नोड्स की संख्या किनारों की संख्या
विरल 10 365.4एम 30बी
सघन 50 136.5एम 22बी
विरल डे 10 19.7 मी 1.19बी
डी-घना डे 50 5.7M 0.82बी
विरल में 10 1.5 मी 0.14बी
घने में 50 0.5 मी 0.12बी

डेटासेट के सभी संस्करणों में निम्नलिखित विशेषताएं हैं:

  • "row_tag": पंक्ति का एक विशिष्ट पहचानकर्ता (स्रोत लिंक)।
  • "col_tag": गैर-शून्य कॉलम (गंतव्य आउटलिंक) के अद्वितीय पहचानकर्ताओं की सूची।
  • "gt_tag": जमीनी सच्चाई (गंतव्य आउटलिंक्स) के रूप में उपयोग किए जाने वाले गैर-शून्य स्तंभों के अद्वितीय पहचानकर्ताओं की सूची, ट्रेन/train_t विभाजन के लिए खाली।

  • होमपेज : https://arxiv.org/abs/2112.02194

  • स्रोत कोड : tfds.structured.web_graph.WebGraph

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड आकार : Unknown size

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • फ़ीचर संरचना :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
col_tag अनुक्रम (टेंसर) (कोई भी नहीं,) int64
gt_tag अनुक्रम (टेंसर) (कोई भी नहीं,) int64
row_tag टेन्सर int64
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • विन्यास विवरण : वेबग्राफ-स्पार्स में लगभग 30B किनारों और लगभग 365M नोड्स होते हैं।

  • डेटासेट का आकार : 273.38 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 39,871,321
'train' 372,049,054
'train_t' 410,867,007

web_graph/dense

  • विन्यास विवरण : वेबग्राफ-घने में लगभग 22B किनारों और लगभग 136.5M नोड्स होते हैं।

  • डेटासेट का आकार : 170.87 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 13,256,496
'train' 122,815,749
'train_t' 136,019,364

web_graph/de-sparse

  • कॉन्फ़िग विवरण : WebGraph-de-sparse में लगभग 1.19B किनारे और लगभग 19.7M नोड होते हैं।

  • डेटासेट का आकार : 10.25 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,903,443
'train' 17,688,633
'train_t' 19,566,045

वेब_ग्राफ/डी-डेंस

  • विन्यास विवरण : वेबग्राफ-डी-डेंस में लगभग 0.82B किनारों और लगभग 5.7M नोड्स होते हैं।

  • डेटासेट का आकार : 5.90 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 553,270
'train' 5,118,902
'train_t' 5,672,473

web_graph/in-sparse

  • विन्यास विवरण : वेबग्राफ-डी-स्पार्स में लगभग 0.14B किनारों और लगभग 1.5M नोड्स होते हैं।

  • डेटासेट का आकार : 960.57 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 140,313
'train' 1,309,063
'train_t' 1,445,042

web_graph/in-dense

  • कॉन्फ़िग विवरण : WebGraph-de-dense में लगभग 0.12B किनारे और लगभग 0.5M नोड होते हैं।

  • डेटासेट का आकार : 711.72 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 47,894
'train' 443,786
'train_t' 491,634