- বর্ণনা :
এই ডেটাসেটে একটি স্পার্স গ্রাফ রয়েছে যা ওয়েবের একটি ছোট উপসেটের জন্য ওয়েব লিঙ্কের কাঠামোকে উপস্থাপন করে।
এটি 2021 সালে CommonCrawl দ্বারা সঞ্চালিত একটি একক ক্রলের একটি প্রক্রিয়াকৃত সংস্করণ যেখানে আমরা সবকিছু খুলে রাখি এবং শুধুমাত্র লিঙ্ক->আউটলিঙ্কের কাঠামো রাখি। চূড়ান্ত ডেটাসেটটি মূলত int -> তালিকা[int] বিন্যাস যার প্রতিটি পূর্ণসংখ্যা আইডি একটি url প্রতিনিধিত্ব করে।
এছাড়াও, এই সম্পদের মান বৃদ্ধি করার জন্য, আমরা WebGraph-এর 6টি ভিন্ন সংস্করণ তৈরি করেছি, প্রতিটি স্পার্সিটি প্যাটার্ন এবং লোকেলে পরিবর্তিত। আমরা ক্রমানুসারে নিম্নলিখিত প্রক্রিয়াকরণ পদক্ষেপ নিয়েছি:
- আমরা জুন 2021 ক্রল থেকে WAT ফাইলগুলি দিয়ে শুরু করেছি।
- যেহেতু HTTP-প্রতিক্রিয়া-মেটাডেটাতে আউটলিঙ্কগুলি আপেক্ষিক পাথ হিসাবে সংরক্ষণ করা হয়, তাই আমরা প্রতিটি লিঙ্ক যাচাই করার পরে urllib ব্যবহার করে তাদের পরম পাথে রূপান্তর করি।
- লোকেল-নির্দিষ্ট গ্রাফগুলি অধ্যয়ন করার জন্য, আমরা 2টি শীর্ষ স্তরের ডোমেনের উপর ভিত্তি করে আরও ফিল্টার করি: 'de' এবং 'in', প্রতিটি নোডের কম সংখ্যক মাত্রার ক্রম সহ একটি গ্রাফ তৈরি করে।
- এই গ্রাফগুলিতে এখনও নির্বিচারে স্পারসিটি প্যাটার্ন এবং ঝুলন্ত লিঙ্ক থাকতে পারে। এইভাবে আমরা প্রতিটি গ্রাফে নোডগুলিকে ফিল্টার করি যাতে ন্যূনতম K ∈ [10, 50] ইনলিংক এবং আউটলিঙ্ক থাকে। মনে রাখবেন যে আমরা এই প্রক্রিয়াকরণটি শুধুমাত্র একবার করি, এইভাবে এটি এখনও একটি আনুমানিক অর্থাৎ ফলাফল গ্রাফে K লিঙ্কের চেয়ে কম নোড থাকতে পারে।
- উভয় লোকেল এবং গণনা ফিল্টার ব্যবহার করে, আমরা ওয়েবগ্রাফ ডেটাসেটের 6 টি সংস্করণ চূড়ান্ত করি, যা ফলো করা টেবিলে সংক্ষিপ্ত করা হয়েছে।
সংস্করণ | শীর্ষ স্তরের ডোমেইন | নূন্যতম গণনা | নোড সংখ্যা | প্রান্ত সংখ্যা |
---|---|---|---|---|
sparse | 10 | 365.4M | 30B | |
ঘন | 50 | 136.5M | 22B | |
ডি-স্পার্স | ডি | 10 | 19.7M | 1.19B |
কম ঘন | ডি | 50 | 5.7M | 0.82B |
in-sparse | ভিতরে | 10 | 1.5M | 0.14B |
মধ্যে ঘন | ভিতরে | 50 | 0.5M | 0.12B |
ডেটাসেটের সমস্ত সংস্করণে নিম্নলিখিত বৈশিষ্ট্য রয়েছে:
- "row_tag": সারির একটি অনন্য শনাক্তকারী (উৎস লিঙ্ক)।
- "col_tag": অ-শূন্য কলামের অনন্য শনাক্তকারীর একটি তালিকা (ডেস্ট আউটলিঙ্ক)।
"gt_tag": গ্রাউন্ড ট্রুথ (ডেস্ট আউটলিঙ্ক) হিসাবে ব্যবহৃত নন-জিরো কলামগুলির অনন্য শনাক্তকারীর একটি তালিকা, ট্রেন/ট্রেন_টি বিভাজনের জন্য খালি।
হোমপেজ : https://arxiv.org/abs/2112.02194
সোর্স কোড :
tfds.structured.web_graph.WebGraph
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
Unknown size
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
col_tag | ক্রম (টেনসর) | (কোনটিই নয়,) | int64 | |
gt_tag | ক্রম (টেনসর) | (কোনটিই নয়,) | int64 | |
সারি_ট্যাগ | টেনসর | int64 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-স্পার্সে প্রায় 30B প্রান্ত এবং প্রায় 365M নোড রয়েছে।
ডেটাসেটের আকার :
273.38 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 39,871,321 |
'train' | 372,049,054 |
'train_t' | 410,867,007 |
- উদাহরণ ( tfds.as_dataframe ):
ওয়েব_গ্রাফ/ঘন
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ঘনটিতে প্রায় 22B প্রান্ত এবং প্রায় 136.5M নোড রয়েছে।
ডেটাসেটের আকার :
170.87 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 13,256,496 |
'train' | 122,815,749 |
'train_t' | 136,019,364 |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/de-sparse
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-স্পার্সে প্রায় 1.19B প্রান্ত এবং প্রায় 19.7M নোড রয়েছে।
ডেটাসেটের আকার :
10.25 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,903,443 |
'train' | 17,688,633 |
'train_t' | 19,566,045 |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/de-dens
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-ডেনস-এ প্রায় 0.82B প্রান্ত এবং প্রায় 5.7M নোড রয়েছে।
ডেটাসেটের আকার :
5.90 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 553,270 |
'train' | 5,118,902 |
'train_t' | ৫,৬৭২,৪৭৩ |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/in-sparse
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-স্পার্সে প্রায় 0.14B প্রান্ত এবং প্রায় 1.5M নোড রয়েছে।
ডেটাসেটের আকার :
960.57 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 140,313 |
'train' | 1,309,063 |
'train_t' | 1,445,042 |
- উদাহরণ ( tfds.as_dataframe ):
web_graph/in-dens
কনফিগারেশনের বিবরণ : ওয়েবগ্রাফ-ডি-ডেনস-এ প্রায় 0.12B প্রান্ত এবং প্রায় 0.5M নোড রয়েছে।
ডেটাসেটের আকার :
711.72 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 47,894 |
'train' | 443,786 |
'train_t' | 491,634 |
- উদাহরণ ( tfds.as_dataframe ):