imdb_reviews

  • Описание :

Большой набор данных обзора фильмов. Это набор данных для бинарной классификации настроений, содержащий значительно больше данных, чем предыдущие эталонные наборы данных. Мы предоставляем набор из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для тестирования. Существуют также дополнительные немаркированные данные для использования.

Расколоть Примеры
'test' 25000
'train' 25000
'unsupervised' 50 000
  • Контролируемые ключи (см. as_supervised doc ): ('text', 'label')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (конфигурация по умолчанию)

  • Описание конфигурации : обычный текст

  • Размер набора данных : 129.83 MiB

  • Структура функции :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса int64
текст Текст нить

imdb_reviews/байты

  • Описание конфигурации : использует кодировку текста на уровне байтов с помощью tfds.deprecated.text.ByteTextEncoder .

  • Размер набора данных : 129.88 MiB

  • Структура функции :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса int64
текст Текст (Никто,) int64

imdb_reviews/subwords8k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером слов 8k.

  • Размер набора данных : 54.72 MiB

  • Структура функции :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса int64
текст Текст (Никто,) int64

imdb_reviews/подслова32k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером словарного запаса 32 КБ.

  • Размер набора данных : 50.33 MiB

  • Структура функции :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса int64
текст Текст (Никто,) int64