- 설명 :
이 데이터 세트에는 PG-19 언어 모델링 벤치마크가 포함되어 있습니다. 여기에는 1919년 이전에 출판된 Project Gutenberg 책 프로젝트( https://www.gutenberg.org )에서 추출한 일련의 책이 포함됩니다. 또한 책 제목 및 출판 날짜의 메타데이터도 포함됩니다. PG-19는 Billion Word 벤치마크 크기의 두 배 이상이며 WikiText 장거리 언어 모델링 벤치마크보다 평균적으로 20배 더 긴 문서를 포함합니다.
책은 기차, 검증 및 테스트 세트로 분할됩니다. 책 메타데이터는 (book_id, short_book_title, publication_date, book_link)를 포함하는 metadata.csv에 저장됩니다.
소스 코드 :
tfds.datasets.pg19.Builder
버전 :
-
0.1.1
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size
데이터세트 크기 :
10.94 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- 기능 구조 :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
book_id | 텐서 | int32 | ||
책_링크 | 텐서 | 끈 | ||
책_텍스트 | 텍스트 | 끈 | ||
책 제목 | 텐서 | 끈 | ||
발행일 | 텐서 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - 설명 :
이 데이터 세트에는 PG-19 언어 모델링 벤치마크가 포함되어 있습니다. 여기에는 1919년 이전에 출판된 Project Gutenberg 책 프로젝트( https://www.gutenberg.org )에서 추출한 일련의 책이 포함됩니다. 또한 책 제목 및 출판 날짜의 메타데이터도 포함됩니다. PG-19는 Billion Word 벤치마크 크기의 두 배 이상이며 WikiText 장거리 언어 모델링 벤치마크보다 평균적으로 20배 더 긴 문서를 포함합니다.
책은 기차, 검증 및 테스트 세트로 분할됩니다. 책 메타데이터는 (book_id, short_book_title, publication_date, book_link)를 포함하는 metadata.csv에 저장됩니다.
소스 코드 :
tfds.datasets.pg19.Builder
버전 :
-
0.1.1
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size
데이터세트 크기 :
10.94 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- 기능 구조 :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
book_id | 텐서 | int32 | ||
책_링크 | 텐서 | 끈 | ||
책_텍스트 | 텍스트 | 끈 | ||
책 제목 | 텐서 | 끈 | ||
발행일 | 텐서 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}