- توضیحات :
مجموعه داده بررسی فیلم بزرگ. این مجموعه داده ای برای طبقه بندی احساسات باینری است که حاوی داده های قابل ملاحظه ای بیشتر از مجموعه داده های معیار قبلی است. ما مجموعه ای از 25000 نقد فیلم بسیار قطبی را برای آموزش و 25000 برای آزمایش ارائه می دهیم. داده های بدون برچسب اضافی نیز برای استفاده وجود دارد.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://ai.stanford.edu/~amaas/data/sentiment/
کد منبع :
tfds.datasets.imdb_reviews.Builder
نسخه ها :
-
1.0.0
(پیشفرض): API تقسیم جدید ( https://tensorflow.org/datasets/splits )
-
حجم دانلود :
80.23 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 25000 |
'train' | 25000 |
'unsupervised' | 50000 |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (پیکربندی پیشفرض)
توضیحات پیکربندی : متن ساده
حجم مجموعه داده :
129.83 MiB
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | int64 | ||
متن | متن | رشته |
- مثالها ( tfds.as_dataframe ):
imdb_reviews/bytes
توضیحات پیکربندی : از کدگذاری متن در سطح بایت با
tfds.deprecated.text.ByteTextEncoder
استفاده می کندحجم مجموعه داده :
129.88 MiB
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | int64 | ||
متن | متن | (هیچ یک،) | int64 |
- مثالها ( tfds.as_dataframe ):
imdb_reviews/subwords8k
توضیحات پیکربندی : از
tfds.deprecated.text.SubwordTextEncoder
با اندازه vocab 8k استفاده می کندحجم مجموعه داده :
54.72 MiB
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | int64 | ||
متن | متن | (هیچ یک،) | int64 |
- مثالها ( tfds.as_dataframe ):
imdb_reviews/subwords32k
توضیحات پیکربندی : از
tfds.deprecated.text.SubwordTextEncoder
با اندازه vocab 32k استفاده می کندحجم مجموعه داده :
50.33 MiB
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | int64 | ||
متن | متن | (هیچ یک،) | int64 |
- مثالها ( tfds.as_dataframe ):