- الوصف :
مجموعة بيانات Yahoo Learning to Rank Challenge (وتسمى أيضًا "C14") هي مجموعة بيانات للتعلم للترتيب أصدرتها Yahoo. تتكون مجموعة البيانات من أزواج من مستندات الاستعلام ممثلة كمتجهات ميزات وما يقابلها من تسميات حكم ذات صلة.
تحتوي مجموعة البيانات على نسختين:
-
set1
: تحتوي على 709877 زوجًا من مستندات الاستعلام. -
set2
: تحتوي على 172870 زوجًا من مستندات الاستعلام.
يمكنك تحديد ما إذا كنت تريد استخدام الإصدار set1
أو set2
من مجموعة البيانات على النحو التالي:
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
إذا تم تحديد yahoo_ltrc
فقط ، فسيتم تحديد الخيار yahoo_ltrc/set1
افتراضيًا:
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
الصفحة الرئيسية : https://research.yahoo.com/datasets
كود المصدر :
tfds.ranking.yahoo_ltrc.YahooLTRC
إصدارات :
-
1.0.0
: الإصدار الأولي. -
1.1.0
(افتراضي): إضافة معرفات الاستعلام والمستند.
-
حجم التنزيل :
Unknown size
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
طلب الوصول إلى مجموعة بيانات C14 Yahoo Learning To Rank Challenge على https://research.yahoo.com/datasets استخرج ملف dataset.tgz الذي تمltrc_yahoo.tar.bz2
dataset.tgz
manual_dir/
.المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc / set1 (التكوين الافتراضي)
حجم مجموعة البيانات :
795.39 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6983 |
'train' | 19،944 |
'vali' | 2،994 |
- هيكل الميزة :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
doc_id | موتر | (لا أحد،) | int64 | |
تعويم_ميزات | موتر | (لا شيء ، 699) | تعويم 64 | |
ضع الكلمة المناسبة | موتر | (لا أحد،) | تعويم 64 | |
معرّف_ الاستعلام | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
yahoo_ltrc / مجموعة 2
حجم مجموعة البيانات :
194.92 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 3،798 |
'train' | 1،266 |
'vali' | 1،266 |
- هيكل الميزة :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
doc_id | موتر | (لا أحد،) | int64 | |
تعويم_ميزات | موتر | (لا شيء ، 700) | تعويم 64 | |
ضع الكلمة المناسبة | موتر | (لا أحد،) | تعويم 64 | |
معرّف_ الاستعلام | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):