- คำอธิบาย :
ชุดข้อมูลรีวิวภาพยนตร์ขนาดใหญ่ ชุดข้อมูลนี้เป็นชุดข้อมูลสำหรับการจำแนกประเภทความรู้สึกแบบไบนารีที่มีข้อมูลมากกว่าชุดข้อมูลมาตรฐานก่อนหน้าอย่างมาก เรามีชุดบทวิจารณ์ภาพยนตร์ที่มีขั้วสูง 25,000 บทสำหรับการฝึกอบรม และ 25,000 บทสำหรับการทดสอบ มีข้อมูลที่ไม่มีป้ายกำกับเพิ่มเติมสำหรับการใช้งานเช่นกัน
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสที่มา :
tfds.datasets.imdb_reviews.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): API แยกใหม่ ( https://tensorflow.org/datasets/splits )
-
ขนาดการดาวน์โหลด :
80.23 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 25,000 |
'train' | 25,000 |
'unsupervised' | 50,000 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'label')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (ค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : ข้อความล้วน
ขนาดชุดข้อมูล :
129.83 MiB
โครงสร้างคุณลักษณะ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ข้อความ | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
imdb_reviews/ไบต์
คำอธิบายการกำหนดค่า : ใช้การเข้ารหัสข้อความระดับไบต์ด้วย
tfds.deprecated.text.ByteTextEncoder
ขนาดชุดข้อมูล :
129.88 MiB
โครงสร้างคุณลักษณะ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ข้อความ | ข้อความ | (ไม่มี,) | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
imdb_reviews/subwords8k
คำอธิบายการกำหนดค่า : ใช้
tfds.deprecated.text.SubwordTextEncoder
ที่มีขนาดคำศัพท์ 8kขนาดชุดข้อมูล :
54.72 MiB
โครงสร้างคุณลักษณะ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ข้อความ | ข้อความ | (ไม่มี,) | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):
imdb_reviews/subwords32k
คำอธิบายการกำหนดค่า : ใช้
tfds.deprecated.text.SubwordTextEncoder
ที่มีขนาดคำศัพท์ 32kขนาดชุดข้อมูล :
50.33 MiB
โครงสร้างคุณลักษณะ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ข้อความ | ข้อความ | (ไม่มี,) | int64 |
- ตัวอย่าง ( tfds.as_dataframe ):