- الوصف :
تحتوي مجموعة بيانات تصنيف أسئلة مؤتمر REtrieval (TREC) على 5500 سؤال معنون في مجموعة التدريب و 500 سؤال آخر لمجموعة الاختبار. تحتوي مجموعة البيانات على 6 تسميات و 47 تصنيفًا من المستوى 2. متوسط طول كل جملة هو 10 ، وحجم المفردات 8700. تم جمع البيانات من أربعة مصادر: 4500 سؤال باللغة الإنجليزية نشرتها USC (Hovy et al. ، 2001) ، وحوالي 500 سؤال تم إنشاؤه يدويًا لفئات قليلة نادرة ، و 894 TREC 8 و أسئلة TREC 9 ، وأيضًا 500 سؤال من TREC 10 والتي تعمل كمجموعة اختبار.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://cogcomp.seas.upenn.edu/Data/QA/QC/
كود المصدر :
tfds.datasets.trec.Builder
إصدارات :
-
1.0.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
350.79 KiB
حجم مجموعة البيانات :
636.90 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 500 |
'train' | 5،452 |
- هيكل الميزة :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
التسمية الخشنة | ClassLabel | int64 | ||
تسمية الغرامة | ClassLabel | int64 | ||
نص | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}