- विवरण :
मौजूदा व्याख्यात्मक पहचान डेटासेट में ऐसे वाक्य जोड़े की कमी होती है जिनमें बिना व्याख्या के उच्च शाब्दिक ओवरलैप होता है। इस तरह के डेटा पर प्रशिक्षित मॉडल न्यूयॉर्क से फ्लोरिडा की उड़ानें और फ्लोरिडा से न्यूयॉर्क की उड़ानें जैसे जोड़ों को अलग करने में विफल रहते हैं। इस डेटासेट में 108,463 मानव-लेबल वाले और 656k शोर वाले लेबल वाले जोड़े शामिल हैं जो व्याख्यात्मक पहचान की समस्या के लिए मॉडलिंग संरचना, संदर्भ और शब्द क्रम जानकारी के महत्व को दर्शाते हैं।
अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS: https://arxiv.org/abs/1904.01130 पर वर्ड स्क्रैम्बलिंग से विरोधियों की व्याख्या
इस कॉर्पस में विकिपीडिया पृष्ठों से उत्पन्न जोड़े शामिल हैं, जिसमें ऐसे जोड़े शामिल हैं जो शब्द स्वैपिंग और बैक ट्रांसलेशन विधियों दोनों से उत्पन्न होते हैं। सभी जोड़ियों में व्याख्या और प्रवाह दोनों पर मानवीय निर्णय होते हैं और वे ट्रेन/देव/परीक्षण अनुभागों में विभाजित होते हैं।
सभी फाइलें चार स्तंभों के साथ टीएसवी प्रारूप में हैं:
-
id
: प्रत्येक जोड़ी के लिए एक अद्वितीय आईडी। -
sentence1
1: पहला वाक्य। -
sentence2
2: दूसरा वाक्य। -
(noisy_)label
: (शोर) प्रत्येक जोड़ी के लिए लेबल।
प्रत्येक लेबल के दो संभावित मान हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक व्याख्या है।
स्रोत कोड :
tfds.datasets.paws_wiki.Builder
संस्करण :
-
1.0.0
: प्रारंभिक संस्करण। -
1.1.0
(डिफ़ॉल्ट): विभिन्न उपसमुच्चय में कॉन्फ़िगरेशन जोड़ता है और कच्चे पाठ का समर्थन करता है।
-
डाउनलोड आकार :
57.47 MiB
फ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लेबल | क्लासलेबल | int64 | ||
वाक्य1 | मूलपाठ | डोरी | ||
वाक्य2 | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : सबसेट: लेबल_फाइनल टोकनाइज्ड: ट्रू
डेटासेट का आकार :
17.96 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- उदाहरण ( tfds.as_dataframe ):
पंजे_विकी/लेबल_फाइनल_रॉ
कॉन्फ़िगरेशन विवरण : सबसेट: लेबल_फाइनल टोकनयुक्त: गलत
डेटासेट का आकार :
17.57 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- उदाहरण ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: सच
डेटासेट का आकार :
8.79 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 30,397 |
- उदाहरण ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: गलत
डेटासेट का आकार :
8.60 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 30,397 |
- उदाहरण ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
कॉन्फिग विवरण : सबसेट: अनलेबल_फाइनल टोकनाइज्ड: ट्रू
डेटासेट का आकार :
177.89 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 645,652 |
'validation' | 10,000 |
- उदाहरण ( tfds.as_dataframe ):