- विवरण :
Reddit डेटासेट, जहाँ TIFU सबब्रेडिट / r / tifu के नाम को दर्शाता है। जैसा कि प्रकाशन में परिभाषित किया गया है, शैली "लघु" सारांश के रूप में शीर्षक का उपयोग करती है और "लंबी" सारांश के रूप में tldr का उपयोग करती है।
सुविधाओं में शामिल हैं:
- दस्तावेज़: टीएलडीआर के बिना पाठ पोस्ट करें।
- टीएलडीआर: टीएलडीआर लाइन।
- शीर्षक: टीएलडीआर के बिना छंटनी की गई शीर्षक।
- अपवोट्स: अपवोट्स।
- स्कोर: स्कोर।
- num_comments: टिप्पणियों की संख्या।
upvote_ratio: अपवोट अनुपात।
होमपेज : https://github.com/ctr4si/MMN
स्रोत कोड :
tfds.datasets.reddit_tifu.Builder
संस्करण :
-
1.1.0
: खाली दस्तावेज़ और सारांश स्ट्रिंग हटाएं। -
1.1.1
: ट्रेन, देव और परीक्षण (80/10/10) विभाजन जोड़ें जो पेगासस ( https://arxiv.org/abs/1912.08777 ) में एक अलग कॉन्फ़िगरेशन में उपयोग किए जाते हैं। ये tfds स्प्लिट फ़ंक्शन का उपयोग करके बेतरतीब ढंग से बनाए गए थे और यह सुनिश्चित करने के लिए जारी किए जा रहे हैं कि Reddit Tifu Long पर परिणाम प्रतिलिपि प्रस्तुत करने योग्य और तुलनीय हैं। इसके अलावा डेटा बिंदुओं मेंid
जोड़ें। -
1.1.2
(डिफ़ॉल्ट): सही किए गए स्प्लिट अपलोड किए गए।
-
फ़ीचर संरचना :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
दस्तावेजों | मूलपाठ | डोरी | ||
पहचान | मूलपाठ | डोरी | ||
num_comments | टेन्सर | फ्लोट32 | ||
अंक | टेन्सर | फ्लोट32 | ||
शीर्षक | मूलपाठ | डोरी | ||
tldr | मूलपाठ | डोरी | ||
UPS | टेन्सर | फ्लोट32 | ||
upvote_ratio | टेन्सर | फ्लोट32 |
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/छोटा (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : सारांश के रूप में शीर्षक का उपयोग करना।
डाउनलोड आकार :
639.54 MiB
डेटासेट का आकार :
141.46 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 79,740 |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('documents', 'title')
उदाहरण ( tfds.as_dataframe ):
reddit_tifu/long
Config विवरण : सारांश के रूप में TLDR का उपयोग करना।
डाउनलोड आकार :
639.54 MiB
डेटासेट का आकार :
93.10 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 42,139 |
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('documents', 'tldr')
उदाहरण ( tfds.as_dataframe ):
reddit_tifu/long_split
कॉन्फिग विवरण : सारांश के रूप में टीएलडीआर का उपयोग करना और वापसी ट्रेन/परीक्षण/देव विभाजन।
डाउनलोड आकार :
639.94 MiB
डेटासेट का आकार :
93.10 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('documents', 'tldr')
उदाहरण ( tfds.as_dataframe ):