- विवरण :
वैज्ञानिक पेपर डेटासेट में लंबे और संरचित दस्तावेज़ों के दो सेट होते हैं। डेटासेट ArXiv और PubMed OpenAccess रिपॉजिटरी से प्राप्त किए जाते हैं।
"आर्क्सिव" और "पब्ड" दोनों में दो विशेषताएं हैं:
- लेख: दस्तावेज़ का मुख्य भाग, "/n" द्वारा अलग किए गए पृष्ठलेख।
- सार: दस्तावेज़ का सार, "/ n" द्वारा अलग किए गए पैग्राफ।
section_names: अनुभागों के शीर्षक, "/n" द्वारा अलग किए गए।
स्रोत कोड :
tfds.datasets.scientific_papers.Builder
संस्करण :
-
1.1.0
: कोई रिलीज नोट नहीं। -
1.1.1
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड का आकार :
4.20 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
सारांश | मूलपाठ | डोरी | ||
लेख | मूलपाठ | डोरी | ||
अनुभाग_नाम | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):('article', 'abstract')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
वैज्ञानिक_पत्र/आर्क्सिव (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : ArXiv रिपॉजिटरी से दस्तावेज़।
डेटासेट का आकार :
7.07 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,440 |
'train' | 203,037 |
'validation' | 6,436 |
- उदाहरण ( tfds.as_dataframe ):
साइंटिफिक_पेपर्स/पबेड
कॉन्फिग विवरण : पबमेड रिपॉजिटरी से दस्तावेज।
डेटासेट का आकार :
2.34 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,658 |
'train' | 119,924 |
'validation' | 6,633 |
- उदाहरण ( tfds.as_dataframe ):