imdb_reviews

  • विवरण :

बड़ी मूवी समीक्षा डेटासेट। यह बाइनरी सेंटीमेंट वर्गीकरण के लिए एक डेटासेट है जिसमें पिछले बेंचमार्क डेटासेट की तुलना में काफी अधिक डेटा है। हम प्रशिक्षण के लिए 25,000 अत्यधिक ध्रुवीय मूवी समीक्षाओं का एक सेट और परीक्षण के लिए 25,000 प्रदान करते हैं। उपयोग के लिए अतिरिक्त लेबल रहित डेटा भी है।

विभाजित करना उदाहरण
'test' 25,000
'train' 25,000
'unsupervised' 50,000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • विन्यास विवरण : सादा पाठ

  • डेटासेट का आकार : 129.83 MiB

  • फ़ीचर संरचना :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेबल क्लासलेबल int64
मूलपाठ मूलपाठ डोरी

आईएमडीबी_समीक्षा/बाइट्स

  • Config विवरण : tfds.deprecated.text.ByteTextEncoder के साथ बाइट-स्तरीय टेक्स्ट एन्कोडिंग का उपयोग करता है

  • डेटासेट का आकार : 129.88 MiB

  • फ़ीचर संरचना :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेबल क्लासलेबल int64
मूलपाठ मूलपाठ (कोई भी नहीं,) int64

आईएमडीबी_समीक्षा/उपशब्द8k

  • Config विवरण : tfds.deprecated.text.SubwordTextEncoder 8k वोकैब आकार के साथ उपयोग करता है

  • डेटासेट का आकार : 54.72 MiB

  • फ़ीचर संरचना :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेबल क्लासलेबल int64
मूलपाठ मूलपाठ (कोई भी नहीं,) int64

आईएमडीबी_समीक्षा/उपशब्द32k

  • Config विवरण : 32k वोकैब आकार के साथ tfds.deprecated.text.SubwordTextEncoder का उपयोग करता है

  • डेटासेट का आकार : 50.33 MiB

  • फ़ीचर संरचना :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेबल क्लासलेबल int64
मूलपाठ मूलपाठ (कोई भी नहीं,) int64