- विवरण :
इस डेटासेट में 23,659 मानव अनुवादित पीएडब्ल्यूएस मूल्यांकन जोड़े और 296,406 मशीन अनुवादित प्रशिक्षण जोड़े छह विशिष्ट भाषाओं में शामिल हैं:
- फ्रेंच
- स्पैनिश
- जर्मन
- चीनी
- जापानी
- कोरियाई
अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS-X: https://arxiv.org/abs/1908.11828 पर व्याख्यात्मक पहचान के लिए एक क्रॉस-लिंगुअल एडवरसैरियल डेटासेट
PAWS डेटासेट के समान, उदाहरण ट्रेन/देव/परीक्षण अनुभागों में विभाजित हैं। सभी फाइलें चार स्तंभों के साथ टीएसवी प्रारूप में हैं:
-
id
: प्रत्येक जोड़ी के लिए एक अद्वितीय आईडी। -
sentence1
1: पहला वाक्य। -
sentence2
2: दूसरा वाक्य। -
(noisy_)label
: (शोर) प्रत्येक जोड़ी के लिए लेबल।
प्रत्येक लेबल के दो संभावित मान हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक व्याख्या है।
मुखपृष्ठ : https://github.com/google-research-datasets/paws/tree/master/pawsx
स्रोत कोड :
tfds.datasets.paws_x_wiki.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
28.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
फ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लेबल | क्लासलेबल | int64 | ||
वाक्य1 | मूलपाठ | डोरी | ||
वाक्य2 | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : डी में अनुवादित
डेटासेट का आकार :
15.27 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- उदाहरण ( tfds.as_dataframe ):
पज_x_विकी/hi
विन्यास विवरण : एन में अनुवादित
डेटासेट का आकार :
14.59 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- उदाहरण ( tfds.as_dataframe ):
पंजे_x_wiki/es
विन्यास विवरण : es में अनुवादित
डेटासेट का आकार :
15.27 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- उदाहरण ( tfds.as_dataframe ):
पंजे_x_विकी/fr
विन्यास विवरण : fr में अनुवादित
डेटासेट का आकार :
15.79 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- उदाहरण ( tfds.as_dataframe ):
पंजे_x_wiki/ja
कॉन्फ़िगरेशन विवरण : ja में अनुवादित
डेटासेट का आकार :
17.77 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- उदाहरण ( tfds.as_dataframe ):
paws_x_wiki/ko
विन्यास विवरण : ko में अनुवादित
डेटासेट का आकार :
16.42 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- उदाहरण ( tfds.as_dataframe ):
paws_x_wiki/zh
विन्यास विवरण : zh में अनुवादित
डेटासेट का आकार :
13.20 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- उदाहरण ( tfds.as_dataframe ):