imdb_revisiones

  • Descripción :

Gran conjunto de datos de revisión de películas. Este es un conjunto de datos para la clasificación de sentimientos binarios que contiene sustancialmente más datos que los conjuntos de datos de referencia anteriores. Proporcionamos un conjunto de 25 000 reseñas de películas altamente polarizadas para capacitación y 25 000 para pruebas. También hay datos adicionales sin etiquetar para su uso.

Separar Ejemplos
'test' 25,000
'train' 25,000
'unsupervised' 50,000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (configuración predeterminada)

  • Descripción de la configuración : texto sin formato

  • Tamaño del conjunto de datos : 129.83 MiB

  • Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase int64
texto Texto cuerda

imdb_revisiones/bytes

  • Descripción de la configuración : utiliza codificación de texto a nivel de byte con tfds.deprecated.text.ByteTextEncoder

  • Tamaño del conjunto de datos : 129.88 MiB

  • Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase int64
texto Texto (Ninguna,) int64

imdb_reviews/subpalabras8k

  • Descripción de la configuración : utiliza tfds.deprecated.text.SubwordTextEncoder con un tamaño de vocabulario de 8k

  • Tamaño del conjunto de datos : 54.72 MiB

  • Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase int64
texto Texto (Ninguna,) int64

imdb_reviews/subpalabras32k

  • Descripción de la configuración : utiliza tfds.deprecated.text.SubwordTextEncoder con un tamaño de vocabulario de 32k

  • Tamaño del conjunto de datos : 50.33 MiB

  • Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase int64
texto Texto (Ninguna,) int64