- विवरण :
सांख्यिकीय भाषा मॉडलिंग में प्रगति को मापने के लिए उपयोग किया जाने वाला बेंचमार्क कॉर्पस। प्रशिक्षण डेटा में इसके लगभग एक बिलियन शब्द हैं।
होमपेज : http://www.statmt.org/lm-benchmark/
स्रोत कोड :
tfds.datasets.lm1b.Builder
संस्करण :
-
1.1.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
1.67 GiB
डेटासेट का आकार :
4.40 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 306,688 |
'train' | 30,301,028 |
- फ़ीचर संरचना :
FeaturesDict({
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
मूलपाठ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('text', 'text')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{DBLP:journals/corr/ChelbaMSGBK13,
author = {Ciprian Chelba and
Tomas Mikolov and
Mike Schuster and
Qi Ge and
Thorsten Brants and
Phillipp Koehn},
title = {One Billion Word Benchmark for Measuring Progress in Statistical Language
Modeling},
journal = {CoRR},
volume = {abs/1312.3005},
year = {2013},
url = {http://arxiv.org/abs/1312.3005},
archivePrefix = {arXiv},
eprint = {1312.3005},
timestamp = {Mon, 13 Aug 2018 16:46:16 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/ChelbaMSGBK13},
bibsource = {dblp computer science bibliography, https://dblp.org}
}