web_graph

  • الوصف :

تحتوي مجموعة البيانات هذه على رسم بياني متفرق يمثل بنية ارتباط الويب لمجموعة فرعية صغيرة من الويب.

إنها نسخة مُعالجة من عملية زحف واحدة تم إجراؤها بواسطة CommonCrawl في عام 2021 حيث نقوم بتجريد كل شيء والاحتفاظ فقط بهيكل الروابط الخارجية. مجموعة البيانات النهائية هي في الأساس تنسيق int -> List [int] مع كل رقم صحيح يمثل عنوان url.

أيضًا ، من أجل زيادة قيمة هذا المورد ، أنشأنا 6 إصدارات مختلفة من WebGraph ، يختلف كل منها في نمط التباين والإعدادات المحلية. اتخذنا خطوات المعالجة التالية بالترتيب:

  • بدأنا بملفات WAT من زحف يونيو 2021.
  • نظرًا لأنه يتم تخزين الروابط الخارجية في HTTP-Response-Metadata كمسارات نسبية ، فإننا نقوم بتحويلها إلى مسارات مطلقة باستخدام urllib بعد التحقق من صحة كل رابط.
  • لدراسة الرسوم البيانية الخاصة بالإعدادات المحلية ، نقوم بالتصفية بناءً على نطاقين من المستوى الأعلى: "de" و "in" ، كل منهما ينتج رسمًا بيانيًا بترتيب أقل عددًا من العقد.
  • لا يزال من الممكن أن تحتوي هذه الرسوم البيانية على أنماط متفرقة عشوائية وروابط متدلية. وبالتالي نقوم بتصفية العقد في كل رسم بياني للحصول على الحد الأدنى من الوصلات الداخلية والوصلات الخارجية K ∈ [10 ، 50]. لاحظ أننا نقوم بهذه المعالجة مرة واحدة فقط ، وبالتالي فإن هذا لا يزال تقريبيًا ، أي أن الرسم البياني الناتج قد يحتوي على عقد بها روابط أقل من K.
  • باستخدام مرشحات الإعدادات المحلية والعدد ، ننهي 6 إصدارات من مجموعة بيانات WebGraph ، ملخصة في الجدول التالي.
إصدار نطاق المستوى الأعلى دقيقة العد عدد العقد عدد الحواف
متناثر 10 365.4 م 30 ب
كثيف 50 136.5 م 22 ب
دي متناثر دي 10 19.7 م 1.19 ب
دي كثيفة دي 50 5.7 م 0.82 ب
قليلة في 10 1.5 م 0.14 ب
كثيف في 50 0.5 م 0.12 ب

تحتوي جميع إصدارات مجموعة البيانات على الميزات التالية:

  • "row_tag": معرف فريد للصف (رابط المصدر).
  • "col_tag": قائمة المعرفات الفريدة للأعمدة غير الصفرية (ارتباطات خارجية).
  • "gt_tag": قائمة المعرفات الفريدة للأعمدة غير الصفرية المستخدمة كحقيقة أساسية (ارتباطات خارجية) ، فارغة لتقسيمات train / train_t.

  • الصفحة الرئيسية https://arxiv.org/abs/2112.02194

  • كود المصدر : tfds.structured.web_graph.WebGraph

  • إصدارات :

    • 1.0.0 (افتراضي): الإصدار الأولي.
  • حجم التنزيل : Unknown size

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • هيكل الميزة :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
col_tag تسلسل (موتر) (لا أحد،) int64
gt_tag تسلسل (موتر) (لا أحد،) int64
row_tag موتر int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph / متفرق (التكوين الافتراضي)

  • وصف التكوين : يحتوي WebGraph-sparse على حواف 30B وحوالي 365M عقدة.

  • حجم مجموعة البيانات : 273.38 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 39،871،321
'train' 372،049،054
'train_t' 410867007

web_graph / كثيف

  • وصف التكوين : يحتوي WebGraph-dense على حواف 22B وحوالي 136.5M عقدة.

  • حجم مجموعة البيانات : 170.87 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 13256496
'train' 122،815،749
'train_t' 136،019،364

web_graph / إزالة متفرق

  • وصف التهيئة: يحتوي WebGraph-de-sparse على حوالي 1.19B حواف وحوالي 19.7M عقدة.

  • حجم مجموعة البيانات : 10.25 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،903،443
'train' 17،688،633
'train_t' 19.566.045

web_graph / إزالة الكثافة

  • وصف التكوين : يحتوي WebGraph-de-dense على حوالي 0.82B من الحواف وحوالي 5.7M من العقد.

  • حجم مجموعة البيانات : 5.90 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 553،270
'train' 5118902
'train_t' 5،672،473

web_graph / غير متفرقة

  • وصف التكوين : يحتوي WebGraph-de-sparse على حوالي 0.14B حواف وحوالي 1.5M عقدة.

  • حجم مجموعة البيانات : 960.57 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 140313
'train' 1،309،063
'train_t' 1،445،042

web_graph / كثيف

  • وصف التكوين : يحتوي WebGraph-de-dense على حوالي 0.12B حواف وحوالي 0.5M عقدة.

  • حجم مجموعة البيانات : 711.72 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 47894
'train' 443،786
'train_t' 491634