- विवरण :
बड़ी मूवी समीक्षा डेटासेट। यह बाइनरी सेंटीमेंट वर्गीकरण के लिए एक डेटासेट है जिसमें पिछले बेंचमार्क डेटासेट की तुलना में काफी अधिक डेटा है। हम प्रशिक्षण के लिए 25,000 अत्यधिक ध्रुवीय मूवी समीक्षाओं का एक सेट और परीक्षण के लिए 25,000 प्रदान करते हैं। उपयोग के लिए अतिरिक्त लेबल रहित डेटा भी है।
स्रोत कोड :
tfds.datasets.imdb_reviews.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): नया स्प्लिट एपीआई ( https://tensorflow.org/datasets/splits )
-
डाउनलोड आकार :
80.23 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 25,000 |
'train' | 25,000 |
'unsupervised' | 50,000 |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('text', 'label')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (डिफ़ॉल्ट कॉन्फ़िगरेशन)
विन्यास विवरण : सादा पाठ
डेटासेट का आकार :
129.83 MiB
फ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लेबल | क्लासलेबल | int64 | ||
मूलपाठ | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
आईएमडीबी_समीक्षा/बाइट्स
Config विवरण :
tfds.deprecated.text.ByteTextEncoder
के साथ बाइट-स्तरीय टेक्स्ट एन्कोडिंग का उपयोग करता हैडेटासेट का आकार :
129.88 MiB
फ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लेबल | क्लासलेबल | int64 | ||
मूलपाठ | मूलपाठ | (कोई भी नहीं,) | int64 |
- उदाहरण ( tfds.as_dataframe ):
आईएमडीबी_समीक्षा/उपशब्द8k
Config विवरण :
tfds.deprecated.text.SubwordTextEncoder
8k वोकैब आकार के साथ उपयोग करता हैडेटासेट का आकार :
54.72 MiB
फ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लेबल | क्लासलेबल | int64 | ||
मूलपाठ | मूलपाठ | (कोई भी नहीं,) | int64 |
- उदाहरण ( tfds.as_dataframe ):
आईएमडीबी_समीक्षा/उपशब्द32k
Config विवरण : 32k वोकैब आकार के साथ
tfds.deprecated.text.SubwordTextEncoder
का उपयोग करता हैडेटासेट का आकार :
50.33 MiB
फ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लेबल | क्लासलेबल | int64 | ||
मूलपाठ | मूलपाठ | (कोई भी नहीं,) | int64 |
- उदाहरण ( tfds.as_dataframe ):