- 설명 :
대형 영화 리뷰 데이터 세트. 이것은 이전 벤치마크 데이터 세트보다 훨씬 더 많은 데이터를 포함하는 이진 감정 분류용 데이터 세트입니다. 우리는 교육용으로 25,000개의 극단적인 영화 리뷰 세트와 테스트용으로 25,000개의 세트를 제공합니다. 레이블이 지정되지 않은 추가 데이터도 사용할 수 있습니다.
버전 :
-
1.0.0
(기본값): 새로운 분할 API( https://tensorflow.org/datasets/splits )
-
다운로드 크기 :
80.23 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 25,000 |
'train' | 25,000 |
'unsupervised' | 50,000 |
감독 키 (
as_supervised
문서 참조):('text', 'label')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text(기본 구성)
구성 설명 : 일반 텍스트
데이터 세트 크기 :
129.83 MiB
기능 구조 :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
상표 | 클래스 레이블 | int64 | ||
텍스트 | 텍스트 | 끈 |
- 예 ( tfds.as_dataframe ):
imdb_리뷰/바이트
구성 설명 :
tfds.deprecated.text.ByteTextEncoder
와 함께 바이트 수준 텍스트 인코딩을 사용합니다.데이터 세트 크기 :
129.88 MiB
기능 구조 :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
상표 | 클래스 레이블 | int64 | ||
텍스트 | 텍스트 | (없음,) | int64 |
- 예 ( tfds.as_dataframe ):
imdb_reviews/subwords8k
구성 설명 : 8k vocab 크기의
tfds.deprecated.text.SubwordTextEncoder
사용데이터 세트 크기 :
54.72 MiB
기능 구조 :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
상표 | 클래스 레이블 | int64 | ||
텍스트 | 텍스트 | (없음,) | int64 |
- 예 ( tfds.as_dataframe ):
imdb_reviews/subwords32k
구성 설명 : 32k vocab 크기의
tfds.deprecated.text.SubwordTextEncoder
사용데이터 세트 크기 :
50.33 MiB
기능 구조 :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
상표 | 클래스 레이블 | int64 | ||
텍스트 | 텍스트 | (없음,) | int64 |
- 예 ( tfds.as_dataframe ):