- Mô tả :
Bộ dữ liệu đánh giá phim lớn. Đây là bộ dữ liệu để phân loại tình cảm nhị phân chứa nhiều dữ liệu hơn đáng kể so với bộ dữ liệu điểm chuẩn trước đó. Chúng tôi cung cấp một bộ gồm 25.000 bài đánh giá phim có tính phân cực cao để đào tạo và 25.000 bài để thử nghiệm. Có thêm dữ liệu chưa được gắn nhãn để sử dụng.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://ai.stanford.edu/~amaas/data/sentiment/
Mã nguồn :
tfds.datasets.imdb_reviews.Builder
Phiên bản :
-
1.0.0
(mặc định): API phân tách mới ( https://tensorflow.org/datasets/splits )
-
Kích thước tải xuống :
80.23 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 25.000 |
'train' | 25.000 |
'unsupervised' | 50.000 |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (cấu hình mặc định)
Mô tả cấu hình : Văn bản thuần túy
Kích thước tập dữ liệu :
129.83 MiB
Cấu trúc tính năng :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhãn mác | LớpNhãn | int64 | ||
chữ | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
imdb_reviews/byte
Mô tả cấu hình : Sử dụng mã hóa văn bản ở mức byte với
tfds.deprecated.text.ByteTextEncoder
Kích thước tập dữ liệu :
129.88 MiB
Cấu trúc tính năng :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhãn mác | LớpNhãn | int64 | ||
chữ | Chữ | (Không có,) | int64 |
- Ví dụ ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Mô tả cấu hình : Sử dụng
tfds.deprecated.text.SubwordTextEncoder
với kích thước từ vựng 8kKích thước tập dữ liệu :
54.72 MiB
Cấu trúc tính năng :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhãn mác | LớpNhãn | int64 | ||
chữ | Chữ | (Không có,) | int64 |
- Ví dụ ( tfds.as_dataframe ):
imdb_reviews/từ phụ32k
Mô tả cấu hình : Sử dụng
tfds.deprecated.text.SubwordTextEncoder
với kích thước từ vựng 32kKích thước tập dữ liệu :
50.33 MiB
Cấu trúc tính năng :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhãn mác | LớpNhãn | int64 | ||
chữ | Chữ | (Không có,) | int64 |
- Ví dụ ( tfds.as_dataframe ):