- Descripción :
Gran conjunto de datos de revisión de películas. Este es un conjunto de datos para la clasificación de sentimientos binarios que contiene sustancialmente más datos que los conjuntos de datos de referencia anteriores. Proporcionamos un conjunto de 25 000 reseñas de películas altamente polarizadas para capacitación y 25 000 para pruebas. También hay datos adicionales sin etiquetar para su uso.
Documentación adicional : Explore en Papers With Code
Página de inicio : http://ai.stanford.edu/~amaas/data/sentiment/
Código fuente :
tfds.datasets.imdb_reviews.Builder
Versiones :
-
1.0.0
(predeterminado): nueva API dividida ( https://tensorflow.org/datasets/splits )
-
Tamaño de la descarga :
80.23 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 25,000 |
'train' | 25,000 |
'unsupervised' | 50,000 |
Claves supervisadas (Ver como_documento
as_supervised
):('text', 'label')
Figura ( tfds.show_examples ): no compatible.
Cita :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (configuración predeterminada)
Descripción de la configuración : texto sin formato
Tamaño del conjunto de datos :
129.83 MiB
Estructura de características :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
etiqueta | Etiqueta de clase | int64 | ||
texto | Texto | cuerda |
- Ejemplos ( tfds.as_dataframe ):
imdb_revisiones/bytes
Descripción de la configuración : utiliza codificación de texto a nivel de byte con
tfds.deprecated.text.ByteTextEncoder
Tamaño del conjunto de datos :
129.88 MiB
Estructura de características :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
etiqueta | Etiqueta de clase | int64 | ||
texto | Texto | (Ninguna,) | int64 |
- Ejemplos ( tfds.as_dataframe ):
imdb_reviews/subpalabras8k
Descripción de la configuración : utiliza
tfds.deprecated.text.SubwordTextEncoder
con un tamaño de vocabulario de 8kTamaño del conjunto de datos :
54.72 MiB
Estructura de características :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
etiqueta | Etiqueta de clase | int64 | ||
texto | Texto | (Ninguna,) | int64 |
- Ejemplos ( tfds.as_dataframe ):
imdb_reviews/subpalabras32k
Descripción de la configuración : utiliza
tfds.deprecated.text.SubwordTextEncoder
con un tamaño de vocabulario de 32kTamaño del conjunto de datos :
50.33 MiB
Estructura de características :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
etiqueta | Etiqueta de clase | int64 | ||
texto | Texto | (Ninguna,) | int64 |
- Ejemplos ( tfds.as_dataframe ):