- Описание :
Большой набор данных обзора фильмов. Это набор данных для бинарной классификации настроений, содержащий значительно больше данных, чем предыдущие эталонные наборы данных. Мы предоставляем набор из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для тестирования. Существуют также дополнительные немаркированные данные для использования.
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://ai.stanford.edu/~amaas/data/sentiment/
Исходный код :
tfds.datasets.imdb_reviews.Builder
Версии :
-
1.0.0
(по умолчанию): новый раздельный API ( https://tensorflow.org/datasets/splits )
-
Размер загрузки :
80.23 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 25000 |
'train' | 25000 |
'unsupervised' | 50 000 |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'label')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (конфигурация по умолчанию)
Описание конфигурации : обычный текст
Размер набора данных :
129.83 MiB
Структура функции :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
этикетка | Метка класса | int64 | ||
текст | Текст | нить |
- Примеры ( tfds.as_dataframe ):
imdb_reviews/байты
Описание конфигурации : использует кодировку текста на уровне байтов с помощью
tfds.deprecated.text.ByteTextEncoder
.Размер набора данных :
129.88 MiB
Структура функции :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
этикетка | Метка класса | int64 | ||
текст | Текст | (Никто,) | int64 |
- Примеры ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Описание конфигурации : использует
tfds.deprecated.text.SubwordTextEncoder
с размером слов 8k.Размер набора данных :
54.72 MiB
Структура функции :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
этикетка | Метка класса | int64 | ||
текст | Текст | (Никто,) | int64 |
- Примеры ( tfds.as_dataframe ):
imdb_reviews/подслова32k
Описание конфигурации : использует
tfds.deprecated.text.SubwordTextEncoder
с размером словарного запаса 32 КБ.Размер набора данных :
50.33 MiB
Структура функции :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
этикетка | Метка класса | int64 | ||
текст | Текст | (Никто,) | int64 |
- Примеры ( tfds.as_dataframe ):