إستيلا

  • الوصف :

مجموعات بيانات Istella هي ثلاث مجموعات بيانات واسعة النطاق للتعلم من رتبة إلى مرتبة أصدرتها Istella. تتكون كل مجموعة بيانات من أزواج من مستندات الاستعلام ممثلة كمتجهات ميزات وما يقابلها من تسميات حكم ذات صلة.

تحتوي مجموعة البيانات على ثلاثة إصدارات:

  • main ("Istella LETOR"): تحتوي على 10،454،629 زوجًا من مستندات الاستعلام.
  • s ("Istella-S LETOR"): تحتوي على 3،408،630 زوجًا من مستندات الاستعلام.
  • x ("Istella-X LETOR"): تحتوي على 26،791،447 زوجًا من مستندات الاستعلام.

يمكنك تحديد ما إذا كنت تريد استخدام الإصدار main أو s أو x من مجموعة البيانات على النحو التالي:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

إذا تم تحديد istella فقط ، فسيتم تحديد خيار istella/main افتراضيًا:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • الصفحة الرئيسية : http://quickrank.isti.cnr.it/istella-dataset/

  • شفرة المصدر : tfds.ranking.istella.Istella

  • إصدارات :

    • 1.0.0 : الإصدار الأولي.
    • 1.0.1 : إصلاح التسلسل لدعم float64.
    • 1.1.0 : تجميع الميزات في ميزة "float_features" واحدة.
    • 1.2.0 (افتراضي): إضافة معرفات الاستعلام والمستند.
  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • هيكل الميزة :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
doc_id موتر (لا أحد،) int64
تعويم_ميزات موتر (لا شيء ، 220) تعويم 64
ضع الكلمة المناسبة موتر (لا أحد،) تعويم 64
معرّف_ الاستعلام نص سلسلة
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella / main (التكوين الافتراضي)

  • حجم التحميل : 1.20 GiB

  • حجم مجموعة البيانات : 1.12 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 9799
'train' 23219

إستيلا / س

  • حجم التحميل : 450.26 MiB

  • حجم مجموعة البيانات : 421.88 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 6562
'train' 19245
'vali' 7،211

إستيلا / س

  • حجم التحميل : 4.42 GiB

  • حجم مجموعة البيانات : 2.46 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 6000
'vali' 2000
و

  • الوصف :

مجموعات بيانات Istella هي ثلاث مجموعات بيانات واسعة النطاق للتعلم من رتبة إلى مرتبة أصدرتها Istella. تتكون كل مجموعة بيانات من أزواج من مستندات الاستعلام ممثلة كمتجهات ميزات وما يقابلها من تسميات حكم ذات صلة.

تحتوي مجموعة البيانات على ثلاثة إصدارات:

  • main ("Istella LETOR"): تحتوي على 10،454،629 زوجًا من مستندات الاستعلام.
  • s ("Istella-S LETOR"): تحتوي على 3،408،630 زوجًا من مستندات الاستعلام.
  • x ("Istella-X LETOR"): تحتوي على 26،791،447 زوجًا من مستندات الاستعلام.

يمكنك تحديد ما إذا كنت تريد استخدام الإصدار main أو s أو x من مجموعة البيانات على النحو التالي:

ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")

إذا تم تحديد istella فقط ، فسيتم تحديد خيار istella/main افتراضيًا:

# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
  • الصفحة الرئيسية : http://quickrank.isti.cnr.it/istella-dataset/

  • شفرة المصدر : tfds.ranking.istella.Istella

  • إصدارات :

    • 1.0.0 : الإصدار الأولي.
    • 1.0.1 : إصلاح التسلسل لدعم float64.
    • 1.1.0 : تجميع الميزات في ميزة "float_features" واحدة.
    • 1.2.0 (افتراضي): إضافة معرفات الاستعلام والمستند.
  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • هيكل الميزة :

FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 220), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
doc_id موتر (لا أحد،) int64
تعويم_ميزات موتر (لا شيء ، 220) تعويم 64
ضع الكلمة المناسبة موتر (لا أحد،) تعويم 64
معرّف_ الاستعلام نص سلسلة
@article{10.1145/2987380,
  author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
  title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
  year = {2016},
  publisher = {ACM},
  address = {New York, NY, USA},
  volume = {35},
  number = {2},
  issn = {1046-8188},
  url = {https://doi.org/10.1145/2987380},
  doi = {10.1145/2987380},
  journal = {ACM Transactions on Information Systems},
  articleno = {15},
  numpages = {31},
}

istella / main (التكوين الافتراضي)

  • حجم التحميل : 1.20 GiB

  • حجم مجموعة البيانات : 1.12 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 9799
'train' 23219

إستيلا / س

  • حجم التحميل : 450.26 MiB

  • حجم مجموعة البيانات : 421.88 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 6562
'train' 19245
'vali' 7،211

إستيلا / س

  • حجم التحميل : 4.42 GiB

  • حجم مجموعة البيانات : 2.46 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 6000
'vali' 2000