- Descrizione :
Set di dati di recensioni di film di grandi dimensioni. Questo è un set di dati per la classificazione del sentiment binario contenente sostanzialmente più dati rispetto ai precedenti set di dati di riferimento. Forniamo una serie di 25.000 recensioni di film altamente polari per la formazione e 25.000 per i test. Sono disponibili anche dati aggiuntivi non etichettati da utilizzare.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://ai.stanford.edu/~amaas/data/sentiment/
Codice sorgente :
tfds.datasets.imdb_reviews.Builder
Versioni :
-
1.0.0
(impostazione predefinita): nuova API divisa ( https://tensorflow.org/datasets/splits )
-
Dimensione del download :
80.23 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 25.000 |
'train' | 25.000 |
'unsupervised' | 50.000 |
Chiavi supervisionate (vedi
as_supervised
doc ):('text', 'label')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (configurazione predefinita)
Descrizione della configurazione : testo semplice
Dimensione del set di dati :
129.83 MiB
Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | int64 | ||
testo | Testo | corda |
- Esempi ( tfds.as_dataframe ):
imdb_reviews/byte
Descrizione della configurazione : utilizza la codifica del testo a livello di byte con
tfds.deprecated.text.ByteTextEncoder
Dimensione del set di dati :
129.88 MiB
Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | int64 | ||
testo | Testo | (Nessuno,) | int64 |
- Esempi ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Descrizione della configurazione : usa
tfds.deprecated.text.SubwordTextEncoder
con una dimensione del vocabolario di 8kDimensione del set di dati :
54.72 MiB
Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | int64 | ||
testo | Testo | (Nessuno,) | int64 |
- Esempi ( tfds.as_dataframe ):
imdb_reviews/subwords32k
Descrizione della configurazione : utilizza
tfds.deprecated.text.SubwordTextEncoder
con una dimensione del vocabolario di 32kDimensione del set di dati :
50.33 MiB
Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | int64 | ||
testo | Testo | (Nessuno,) | int64 |
- Esempi ( tfds.as_dataframe ):