reddit_tifu

  • विवरण :

Reddit डेटासेट, जहाँ TIFU सबब्रेडिट / r / tifu के नाम को दर्शाता है। जैसा कि प्रकाशन में परिभाषित किया गया है, शैली "लघु" सारांश के रूप में शीर्षक का उपयोग करती है और "लंबी" सारांश के रूप में tldr का उपयोग करती है।

सुविधाओं में शामिल हैं:

  • दस्तावेज़: टीएलडीआर के बिना पाठ पोस्ट करें।
  • टीएलडीआर: टीएलडीआर लाइन।
  • शीर्षक: टीएलडीआर के बिना छंटनी की गई शीर्षक।
  • अपवोट्स: अपवोट्स।
  • स्कोर: स्कोर।
  • num_comments: टिप्पणियों की संख्या।
  • upvote_ratio: अपवोट अनुपात।

  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : https://github.com/ctr4si/MMN

  • स्रोत कोड : tfds.datasets.reddit_tifu.Builder

  • संस्करण :

    • 1.1.0 : खाली दस्तावेज़ और सारांश स्ट्रिंग हटाएं।
    • 1.1.1 : ट्रेन, देव और परीक्षण (80/10/10) विभाजन जोड़ें जो पेगासस ( https://arxiv.org/abs/1912.08777 ) में एक अलग कॉन्फ़िगरेशन में उपयोग किए जाते हैं। ये tfds स्प्लिट फ़ंक्शन का उपयोग करके बेतरतीब ढंग से बनाए गए थे और यह सुनिश्चित करने के लिए जारी किए जा रहे हैं कि Reddit Tifu Long पर परिणाम प्रतिलिपि प्रस्तुत करने योग्य और तुलनीय हैं। इसके अलावा डेटा बिंदुओं में id जोड़ें।
    • 1.1.2 (डिफ़ॉल्ट): सही किए गए स्प्लिट अपलोड किए गए।
  • फ़ीचर संरचना :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
दस्तावेजों मूलपाठ डोरी
पहचान मूलपाठ डोरी
num_comments टेन्सर फ्लोट32
अंक टेन्सर फ्लोट32
शीर्षक मूलपाठ डोरी
tldr मूलपाठ डोरी
UPS टेन्सर फ्लोट32
upvote_ratio टेन्सर फ्लोट32
  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/छोटा (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण : सारांश के रूप में शीर्षक का उपयोग करना।

  • डाउनलोड आकार : 639.54 MiB

  • डेटासेट का आकार : 141.46 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'train' 79,740

reddit_tifu/long

  • Config विवरण : सारांश के रूप में TLDR का उपयोग करना।

  • डाउनलोड आकार : 639.54 MiB

  • डेटासेट का आकार : 93.10 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 42,139

reddit_tifu/long_split

  • कॉन्फिग विवरण : सारांश के रूप में टीएलडीआर का उपयोग करना और वापसी ट्रेन/परीक्षण/देव विभाजन।

  • डाउनलोड आकार : 639.94 MiB

  • डेटासेट का आकार : 93.10 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,214
'train' 33,711
'validation' 4,214