imdb_reviews

  • Descrizione :

Set di dati di recensioni di film di grandi dimensioni. Questo è un set di dati per la classificazione del sentiment binario contenente sostanzialmente più dati rispetto ai precedenti set di dati di riferimento. Forniamo una serie di 25.000 recensioni di film altamente polari per la formazione e 25.000 per i test. Sono disponibili anche dati aggiuntivi non etichettati da utilizzare.

Diviso Esempi
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (configurazione predefinita)

  • Descrizione della configurazione : testo semplice

  • Dimensione del set di dati : 129.83 MiB

  • Struttura delle caratteristiche :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
etichetta ClassLabel int64
testo Testo corda

imdb_reviews/byte

  • Descrizione della configurazione : utilizza la codifica del testo a livello di byte con tfds.deprecated.text.ByteTextEncoder

  • Dimensione del set di dati : 129.88 MiB

  • Struttura delle caratteristiche :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
etichetta ClassLabel int64
testo Testo (Nessuno,) int64

imdb_reviews/subwords8k

  • Descrizione della configurazione : usa tfds.deprecated.text.SubwordTextEncoder con una dimensione del vocabolario di 8k

  • Dimensione del set di dati : 54.72 MiB

  • Struttura delle caratteristiche :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
etichetta ClassLabel int64
testo Testo (Nessuno,) int64

imdb_reviews/subwords32k

  • Descrizione della configurazione : utilizza tfds.deprecated.text.SubwordTextEncoder con una dimensione del vocabolario di 32k

  • Dimensione del set di dati : 50.33 MiB

  • Struttura delle caratteristiche :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
etichetta ClassLabel int64
testo Testo (Nessuno,) int64