- คำอธิบาย :
ชุดข้อมูลนี้มีเกณฑ์มาตรฐานการสร้างแบบจำลองภาษา PG-19 ประกอบด้วยชุดหนังสือที่ดึงมาจากโครงการหนังสือ Project Gutenberg ( https://www.gutenberg.org ) ซึ่งจัดพิมพ์ก่อนปี 1919 นอกจากนี้ยังมีข้อมูลเมตาของชื่อหนังสือและวันที่ตีพิมพ์ PG-19 มีขนาดใหญ่เป็นสองเท่าของเกณฑ์มาตรฐาน Billion Word และมีเอกสารที่ยาวกว่าเกณฑ์มาตรฐานการสร้างแบบจำลองภาษาระยะยาวของ WikiText โดยเฉลี่ย 20 เท่า
หนังสือถูกแบ่งเป็นรถไฟ การตรวจสอบ และชุดการทดสอบ ข้อมูลเมตาของหนังสือถูกจัดเก็บไว้ใน metadata.csv ซึ่งมี (book_id, short_book_title, publication_date, book_link)
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/deepmind/pg19
รหัสแหล่งที่มา :
tfds.datasets.pg19.Builder
รุ่น :
-
0.1.1
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
10.94 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
book_id | เทนเซอร์ | int32 | ||
book_link | เทนเซอร์ | สตริง | ||
book_text | ข้อความ | สตริง | ||
ชื่อหนังสือ | เทนเซอร์ | สตริง | ||
สิ่งพิมพ์_วันที่ | เทนเซอร์ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - คำอธิบาย :
ชุดข้อมูลนี้มีเกณฑ์มาตรฐานการสร้างแบบจำลองภาษา PG-19 ประกอบด้วยชุดหนังสือที่ดึงมาจากโครงการหนังสือ Project Gutenberg ( https://www.gutenberg.org ) ซึ่งจัดพิมพ์ก่อนปี 1919 นอกจากนี้ยังมีข้อมูลเมตาของชื่อหนังสือและวันที่ตีพิมพ์ PG-19 มีขนาดใหญ่เป็นสองเท่าของเกณฑ์มาตรฐาน Billion Word และมีเอกสารที่ยาวกว่าเกณฑ์มาตรฐานการสร้างแบบจำลองภาษาระยะยาวของ WikiText โดยเฉลี่ย 20 เท่า
หนังสือถูกแบ่งเป็นรถไฟ การตรวจสอบ และชุดการทดสอบ ข้อมูลเมตาของหนังสือถูกจัดเก็บไว้ใน metadata.csv ซึ่งมี (book_id, short_book_title, publication_date, book_link)
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/deepmind/pg19
รหัสแหล่งที่มา :
tfds.datasets.pg19.Builder
รุ่น :
-
0.1.1
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
10.94 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
book_id | เทนเซอร์ | int32 | ||
book_link | เทนเซอร์ | สตริง | ||
book_text | ข้อความ | สตริง | ||
ชื่อหนังสือ | เทนเซอร์ | สตริง | ||
สิ่งพิมพ์_วันที่ | เทนเซอร์ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}