- الوصف :
مجموعات بيانات Istella هي ثلاث مجموعات بيانات واسعة النطاق للتعلم من رتبة إلى مرتبة أصدرتها Istella. تتكون كل مجموعة بيانات من أزواج من مستندات الاستعلام ممثلة كمتجهات ميزات وما يقابلها من تسميات حكم ذات صلة.
تحتوي مجموعة البيانات على ثلاثة إصدارات:
-
main
("Istella LETOR"): تحتوي على 10،454،629 زوجًا من مستندات الاستعلام. -
s
("Istella-S LETOR"): تحتوي على 3،408،630 زوجًا من مستندات الاستعلام. -
x
("Istella-X LETOR"): تحتوي على 26،791،447 زوجًا من مستندات الاستعلام.
يمكنك تحديد ما إذا كنت تريد استخدام الإصدار main
أو s
أو x
من مجموعة البيانات على النحو التالي:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
إذا تم تحديد istella
فقط ، فسيتم تحديد خيار istella/main
افتراضيًا:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
الصفحة الرئيسية : http://quickrank.isti.cnr.it/istella-dataset/
شفرة المصدر :
tfds.ranking.istella.Istella
إصدارات :
-
1.0.0
: الإصدار الأولي. -
1.0.1
: إصلاح التسلسل لدعم float64. -
1.1.0
: تجميع الميزات في ميزة "float_features" واحدة. -
1.2.0
(افتراضي): إضافة معرفات الاستعلام والمستند.
-
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
doc_id | موتر | (لا أحد،) | int64 | |
تعويم_ميزات | موتر | (لا شيء ، 220) | تعويم 64 | |
ضع الكلمة المناسبة | موتر | (لا أحد،) | تعويم 64 | |
معرّف_ الاستعلام | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella / main (التكوين الافتراضي)
حجم التحميل :
1.20 GiB
حجم مجموعة البيانات :
1.12 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 9799 |
'train' | 23219 |
- أمثلة ( tfds.as_dataframe ):
إستيلا / س
حجم التحميل :
450.26 MiB
حجم مجموعة البيانات :
421.88 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6562 |
'train' | 19245 |
'vali' | 7،211 |
- أمثلة ( tfds.as_dataframe ):
إستيلا / س
حجم التحميل :
4.42 GiB
حجم مجموعة البيانات :
2.46 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- أمثلة ( tfds.as_dataframe ):
- الوصف :
مجموعات بيانات Istella هي ثلاث مجموعات بيانات واسعة النطاق للتعلم من رتبة إلى مرتبة أصدرتها Istella. تتكون كل مجموعة بيانات من أزواج من مستندات الاستعلام ممثلة كمتجهات ميزات وما يقابلها من تسميات حكم ذات صلة.
تحتوي مجموعة البيانات على ثلاثة إصدارات:
-
main
("Istella LETOR"): تحتوي على 10،454،629 زوجًا من مستندات الاستعلام. -
s
("Istella-S LETOR"): تحتوي على 3،408،630 زوجًا من مستندات الاستعلام. -
x
("Istella-X LETOR"): تحتوي على 26،791،447 زوجًا من مستندات الاستعلام.
يمكنك تحديد ما إذا كنت تريد استخدام الإصدار main
أو s
أو x
من مجموعة البيانات على النحو التالي:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
إذا تم تحديد istella
فقط ، فسيتم تحديد خيار istella/main
افتراضيًا:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
الصفحة الرئيسية : http://quickrank.isti.cnr.it/istella-dataset/
شفرة المصدر :
tfds.ranking.istella.Istella
إصدارات :
-
1.0.0
: الإصدار الأولي. -
1.0.1
: إصلاح التسلسل لدعم float64. -
1.1.0
: تجميع الميزات في ميزة "float_features" واحدة. -
1.2.0
(افتراضي): إضافة معرفات الاستعلام والمستند.
-
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
doc_id | موتر | (لا أحد،) | int64 | |
تعويم_ميزات | موتر | (لا شيء ، 220) | تعويم 64 | |
ضع الكلمة المناسبة | موتر | (لا أحد،) | تعويم 64 | |
معرّف_ الاستعلام | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella / main (التكوين الافتراضي)
حجم التحميل :
1.20 GiB
حجم مجموعة البيانات :
1.12 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 9799 |
'train' | 23219 |
- أمثلة ( tfds.as_dataframe ):
إستيلا / س
حجم التحميل :
450.26 MiB
حجم مجموعة البيانات :
421.88 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6562 |
'train' | 19245 |
'vali' | 7،211 |
- أمثلة ( tfds.as_dataframe ):
إستيلا / س
حجم التحميل :
4.42 GiB
حجم مجموعة البيانات :
2.46 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- أمثلة ( tfds.as_dataframe ):