पंजा_विकी

  • विवरण :

मौजूदा व्याख्यात्मक पहचान डेटासेट में ऐसे वाक्य जोड़े की कमी होती है जिनमें बिना व्याख्या के उच्च शाब्दिक ओवरलैप होता है। इस तरह के डेटा पर प्रशिक्षित मॉडल न्यूयॉर्क से फ्लोरिडा की उड़ानें और फ्लोरिडा से न्यूयॉर्क की उड़ानें जैसे जोड़ों को अलग करने में विफल रहते हैं। इस डेटासेट में 108,463 मानव-लेबल वाले और 656k शोर वाले लेबल वाले जोड़े शामिल हैं जो व्याख्यात्मक पहचान की समस्या के लिए मॉडलिंग संरचना, संदर्भ और शब्द क्रम जानकारी के महत्व को दर्शाते हैं।

अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS: https://arxiv.org/abs/1904.01130 पर वर्ड स्क्रैम्बलिंग से विरोधियों की व्याख्या

इस कॉर्पस में विकिपीडिया पृष्ठों से उत्पन्न जोड़े शामिल हैं, जिसमें ऐसे जोड़े शामिल हैं जो शब्द स्वैपिंग और बैक ट्रांसलेशन विधियों दोनों से उत्पन्न होते हैं। सभी जोड़ियों में व्याख्या और प्रवाह दोनों पर मानवीय निर्णय होते हैं और वे ट्रेन/देव/परीक्षण अनुभागों में विभाजित होते हैं।

सभी फाइलें चार स्तंभों के साथ टीएसवी प्रारूप में हैं:

  1. id : प्रत्येक जोड़ी के लिए एक अद्वितीय आईडी।
  2. sentence1 1: पहला वाक्य।
  3. sentence2 2: दूसरा वाक्य।
  4. (noisy_)label : (शोर) प्रत्येक जोड़ी के लिए लेबल।

प्रत्येक लेबल के दो संभावित मान हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक व्याख्या है।

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेबल क्लासलेबल int64
वाक्य1 मूलपाठ डोरी
वाक्य2 मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : सबसेट: लेबल_फाइनल टोकनाइज्ड: ट्रू

  • डेटासेट का आकार : 17.96 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 8,000
'train' 49,401
'validation' 8,000

पंजे_विकी/लेबल_फाइनल_रॉ

  • कॉन्फ़िगरेशन विवरण : सबसेट: लेबल_फाइनल टोकनयुक्त: गलत

  • डेटासेट का आकार : 17.57 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_swap_tokenized

  • विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: सच

  • डेटासेट का आकार : 8.79 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 30,397

paws_wiki/labeled_swap_raw

  • विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: गलत

  • डेटासेट का आकार : 8.60 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 30,397

paws_wiki/unlabeled_final_tokenized

  • कॉन्फिग विवरण : सबसेट: अनलेबल_फाइनल टोकनाइज्ड: ट्रू

  • डेटासेट का आकार : 177.89 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'train' 645,652
'validation' 10,000