- Mô tả :
Bộ dữ liệu này chứa tiêu chuẩn mô hình hóa ngôn ngữ PG-19. Nó bao gồm một bộ sách được trích xuất từ dự án sách Project Gutenberg ( https://www.gutenberg.org ), được xuất bản trước năm 1919. Nó cũng chứa siêu dữ liệu về tên sách và ngày xuất bản. PG-19 có kích thước lớn hơn gấp đôi so với tiêu chuẩn Billion Word và chứa các tài liệu dài hơn trung bình 20 lần so với tiêu chuẩn mô hình hóa ngôn ngữ tầm xa của WikiText.
Sách được phân vùng thành một bộ đào tạo, xác nhận và kiểm tra. Siêu dữ liệu sách được lưu trữ trong metadata.csv chứa (book_id, short_book_title,publish_date, book_link).
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/deepmind/pg19
Mã nguồn :
tfds.datasets.pg19.Builder
Phiên bản :
-
0.1.1
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
10.94 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- Cấu trúc tính năng :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
book_id | tenxơ | int32 | ||
sách_link | tenxơ | sợi dây | ||
sách_văn bản | Chữ | sợi dây | ||
tên sách | tenxơ | sợi dây | ||
xuất bản_ngày | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Mô tả :
Bộ dữ liệu này chứa tiêu chuẩn mô hình hóa ngôn ngữ PG-19. Nó bao gồm một bộ sách được trích xuất từ dự án sách Project Gutenberg ( https://www.gutenberg.org ), được xuất bản trước năm 1919. Nó cũng chứa siêu dữ liệu về tên sách và ngày xuất bản. PG-19 có kích thước lớn hơn gấp đôi so với tiêu chuẩn Billion Word và chứa các tài liệu dài hơn trung bình 20 lần so với tiêu chuẩn mô hình hóa ngôn ngữ tầm xa của WikiText.
Sách được phân vùng thành một bộ đào tạo, xác nhận và kiểm tra. Siêu dữ liệu sách được lưu trữ trong metadata.csv chứa (book_id, short_book_title,publish_date, book_link).
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/deepmind/pg19
Mã nguồn :
tfds.datasets.pg19.Builder
Phiên bản :
-
0.1.1
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
Unknown size
Kích thước tập dữ liệu :
10.94 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- Cấu trúc tính năng :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
book_id | tenxơ | int32 | ||
sách_link | tenxơ | sợi dây | ||
sách_văn bản | Chữ | sợi dây | ||
tên sách | tenxơ | sợi dây | ||
xuất bản_ngày | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}