- الوصف :
مجموعة بيانات مراجعة الأفلام الكبيرة. هذه مجموعة بيانات لتصنيف المشاعر الثنائية تحتوي على بيانات أكثر بكثير من مجموعات البيانات المعيارية السابقة. نحن نقدم مجموعة من 25000 مراجعة فيلم عالية القطبية للتدريب ، و 25000 للاختبار. هناك بيانات إضافية غير مصنفة للاستخدام أيضًا.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://ai.stanford.edu/~amaas/data/sentiment/
كود المصدر :
tfds.datasets.imdb_reviews.Builder
إصدارات :
-
1.0.0
(افتراضي): تقسيم API الجديد ( https://tensorflow.org/datasets/splits )
-
حجم التحميل :
80.23 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 25000 |
'train' | 25000 |
'unsupervised' | 50000 |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('text', 'label')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews / simple_text (التكوين الافتراضي)
وصف التكوين : نص عادي
حجم مجموعة البيانات :
129.83 MiB
هيكل الميزة :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
نص | نص | سلسلة |
- أمثلة ( tfds.as_dataframe ):
imdb_reviews / بايت
وصف التكوين : يستخدم ترميز النص على مستوى البايت مع
tfds.deprecated.text.ByteTextEncoder
حجم مجموعة البيانات :
129.88 MiB
هيكل الميزة :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
نص | نص | (لا أحد،) | int64 |
- أمثلة ( tfds.as_dataframe ):
imdb_reviews / subwords8k
وصف التكوين : يستخدم
tfds.deprecated.text.SubwordTextEncoder
مع حجم 8k vocabحجم مجموعة البيانات :
54.72 MiB
هيكل الميزة :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
نص | نص | (لا أحد،) | int64 |
- أمثلة ( tfds.as_dataframe ):
imdb_reviews / subwords32k
وصف التكوين : يستخدم
tfds.deprecated.text.SubwordTextEncoder
بحجم 32 كيلوبايتحجم مجموعة البيانات :
50.33 MiB
هيكل الميزة :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
ضع الكلمة المناسبة | ClassLabel | int64 | ||
نص | نص | (لا أحد،) | int64 |
- أمثلة ( tfds.as_dataframe ):