- 설명 :
통계적 언어 모델링의 진행 상황을 측정하는 데 사용되는 벤치마크 말뭉치. 이것은 훈련 데이터에 거의 10억 단어가 있습니다.
소스 코드 :
tfds.datasets.lm1b.Builder
버전 :
-
1.1.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
1.67 GiB
데이터세트 크기 :
4.40 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 306,688 |
'train' | 30,301,028 |
- 기능 구조 :
FeaturesDict({
'text': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
텍스트 | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('text', 'text')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{DBLP:journals/corr/ChelbaMSGBK13,
author = {Ciprian Chelba and
Tomas Mikolov and
Mike Schuster and
Qi Ge and
Thorsten Brants and
Phillipp Koehn},
title = {One Billion Word Benchmark for Measuring Progress in Statistical Language
Modeling},
journal = {CoRR},
volume = {abs/1312.3005},
year = {2013},
url = {http://arxiv.org/abs/1312.3005},
archivePrefix = {arXiv},
eprint = {1312.3005},
timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
bibsource = {dblp computer science bibliography, https://dblp.org}
}