yahoo_ltrc

  • الوصف :

مجموعة بيانات Yahoo Learning to Rank Challenge (وتسمى أيضًا "C14") هي مجموعة بيانات للتعلم للترتيب أصدرتها Yahoo. تتكون مجموعة البيانات من أزواج من مستندات الاستعلام ممثلة كمتجهات ميزات وما يقابلها من تسميات حكم ذات صلة.

تحتوي مجموعة البيانات على نسختين:

  • set1 : تحتوي على 709877 زوجًا من مستندات الاستعلام.
  • set2 : تحتوي على 172870 زوجًا من مستندات الاستعلام.

يمكنك تحديد ما إذا كنت تريد استخدام الإصدار set1 أو set2 من مجموعة البيانات على النحو التالي:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

إذا تم تحديد yahoo_ltrc فقط ، فسيتم تحديد الخيار yahoo_ltrc/set1 افتراضيًا:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • الصفحة الرئيسية : https://research.yahoo.com/datasets

  • كود المصدر : tfds.ranking.yahoo_ltrc.YahooLTRC

  • إصدارات :

    • 1.0.0 : الإصدار الأولي.
    • 1.1.0 (افتراضي): إضافة معرفات الاستعلام والمستند.
  • حجم التنزيل : Unknown size

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    طلب الوصول إلى مجموعة بيانات C14 Yahoo Learning To Rank Challenge على https://research.yahoo.com/datasets استخرج ملف dataset.tgz الذي تم ltrc_yahoo.tar.bz2 dataset.tgz manual_dir/ .

  • المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): None

  • الشكل ( tfds.show_examples ): غير مدعوم.

  • الاقتباس :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc / set1 (التكوين الافتراضي)

  • حجم مجموعة البيانات : 795.39 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 6983
'train' 19،944
'vali' 2،994
  • هيكل الميزة :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
doc_id موتر (لا أحد،) int64
تعويم_ميزات موتر (لا شيء ، 699) تعويم 64
ضع الكلمة المناسبة موتر (لا أحد،) تعويم 64
معرّف_ الاستعلام نص سلسلة

yahoo_ltrc / مجموعة 2

  • حجم مجموعة البيانات : 194.92 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 3،798
'train' 1،266
'vali' 1،266
  • هيكل الميزة :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
doc_id موتر (لا أحد،) int64
تعويم_ميزات موتر (لا شيء ، 700) تعويم 64
ضع الكلمة المناسبة موتر (لا أحد،) تعويم 64
معرّف_ الاستعلام نص سلسلة