- الوصف :
مجموعة بيانات مراجعة الصرخة الكبيرة. هذه مجموعة بيانات لتصنيف المشاعر الثنائية. نحن نقدم مجموعة من 560.000 مراجعة عالية القطبية للتدريب ، و 38.000 للاختبار. ORIGIN تتكون مجموعة بيانات مراجعات Yelp من مراجعات من Yelp. تم استخراجه من بيانات Yelp Dataset Challenge 2015. لمزيد من المعلومات ، يرجى الرجوع إلى http://www.yelp.com/dataset
تم إنشاء مجموعة بيانات قطبية مراجعات Yelp بواسطة Xiang Zhang (xiang.zhang@nyu.edu) من مجموعة البيانات أعلاه. تم استخدامه لأول مرة كمعيار لتصنيف النص في الورقة التالية: Xiang Zhang ، Junbo Zhao ، Yann LeCun. الشبكات التلافيفية على مستوى الأحرف لتصنيف النص. التطورات في أنظمة معالجة المعلومات العصبية 28 (NIPS 2015).
وصف
يتم إنشاء مجموعة بيانات قطبية مراجعات Yelp من خلال النظر في النجوم 1 و 2 سلبية ، و 3 و 4 إيجابية. لكل قطبية يتم أخذ 280.000 عينة تدريب و 19.000 عينة اختبار بشكل عشوائي. في المجموع هناك 560.000 عينة تدريب و 38.000 عينة اختبار. القطبية السالبة هي الفئة 1 والفئة الموجبة 2.
يحتوي الملفان train.csv و test.csv على جميع عينات التدريب كقيم مقسمة بفاصلة. يوجد عمودان فيها ، يتوافقان مع فهرس الفئة (1 و 2) ونص المراجعة. يتم تخطي نصوص المراجعة باستخدام علامات الاقتباس المزدوجة (") ، ويتم إفلات أي اقتباس مزدوج داخلي بعلامتي اقتباس مزدوجتين (" "). يتم تخطي الأسطر الجديدة بشرطة مائلة للخلف متبوعة بحرف" n "، أي" ".
الصفحة الرئيسية : https://course.fast.ai/datasets
كود المصدر :
tfds.text.YelpPolarityReviews
إصدارات :
-
0.2.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
158.67 MiB
حجم مجموعة البيانات :
435.14 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 38000 |
'train' | 560.000 |
- هيكل الميزة :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
نص | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('text', 'label')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}