- Açıklama :
Büyük Film İnceleme Veri Kümesi. Bu, önceki kıyaslama veri kümelerinden önemli ölçüde daha fazla veri içeren ikili duyarlılık sınıflandırması için bir veri kümesidir. Eğitim için 25.000 yüksek kutuplu film incelemesi ve test için 25.000 film incelemesi sağlıyoruz. Kullanım için ek etiketlenmemiş veriler de vardır.
Ana sayfa : http://ai.stanford.edu/~amaas/data/sentiment/
Kaynak kodu :
tfds.datasets.imdb_reviews.Builder
sürümler :
-
1.0.0
(varsayılan): Yeni bölünmüş API ( https://tensorflow.org/datasets/splits )
-
İndirme boyutu :
80.23 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 25.000 |
'train' | 25.000 |
'unsupervised' | 50.000 |
Denetlenen anahtarlar (Bkz.
as_supervised
doc ):('text', 'label')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (varsayılan yapılandırma)
Yapılandırma açıklaması : Düz metin
Veri kümesi boyutu :
129.83 MiB
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | SınıfEtiketi | int64 | ||
Metin | Metin | sicim |
- Örnekler ( tfds.as_dataframe ):
imdb_incelemeleri/bayt
Yapılandırma açıklaması :
tfds.deprecated.text.ByteTextEncoder
ile bayt düzeyinde metin kodlaması kullanırVeri kümesi boyutu :
129.88 MiB
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | SınıfEtiketi | int64 | ||
Metin | Metin | (Hiçbiri,) | int64 |
- Örnekler ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Yapılandırma açıklaması : 8k kelime boyutuna sahip
tfds.deprecated.text.SubwordTextEncoder
kullanırVeri kümesi boyutu :
54.72 MiB
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | SınıfEtiketi | int64 | ||
Metin | Metin | (Hiçbiri,) | int64 |
- Örnekler ( tfds.as_dataframe ):
imdb_reviews/subwords32k
Yapılandırma açıklaması : 32k kelime boyutuna sahip
tfds.deprecated.text.SubwordTextEncoder
kullanırVeri kümesi boyutu :
50.33 MiB
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | SınıfEtiketi | int64 | ||
Metin | Metin | (Hiçbiri,) | int64 |
- Örnekler ( tfds.as_dataframe ):