पंजा_x_विकी

  • विवरण :

इस डेटासेट में 23,659 मानव अनुवादित पीएडब्ल्यूएस मूल्यांकन जोड़े और 296,406 मशीन अनुवादित प्रशिक्षण जोड़े छह विशिष्ट भाषाओं में शामिल हैं:

  • फ्रेंच
  • स्पैनिश
  • जर्मन
  • चीनी
  • जापानी
  • कोरियाई

अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS-X: https://arxiv.org/abs/1908.11828 पर व्याख्यात्मक पहचान के लिए एक क्रॉस-लिंगुअल एडवरसैरियल डेटासेट

PAWS डेटासेट के समान, उदाहरण ट्रेन/देव/परीक्षण अनुभागों में विभाजित हैं। सभी फाइलें चार स्तंभों के साथ टीएसवी प्रारूप में हैं:

  1. id : प्रत्येक जोड़ी के लिए एक अद्वितीय आईडी।
  2. sentence1 1: पहला वाक्य।
  3. sentence2 2: दूसरा वाक्य।
  4. (noisy_)label : (शोर) प्रत्येक जोड़ी के लिए लेबल।

प्रत्येक लेबल के दो संभावित मान हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक व्याख्या है।

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेबल क्लासलेबल int64
वाक्य1 मूलपाठ डोरी
वाक्य2 मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : डी में अनुवादित

  • डेटासेट का आकार : 15.27 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,380
'validation' 2,000

पज_x_विकी/hi

  • विन्यास विवरण : एन में अनुवादित

  • डेटासेट का आकार : 14.59 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,175
'validation' 2,000

पंजे_x_wiki/es

  • विन्यास विवरण : es में अनुवादित

  • डेटासेट का आकार : 15.27 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 1,961

पंजे_x_विकी/fr

  • विन्यास विवरण : fr में अनुवादित

  • डेटासेट का आकार : 15.79 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,399
'validation' 1,988

पंजे_x_wiki/ja

  • कॉन्फ़िगरेशन विवरण : ja में अनुवादित

  • डेटासेट का आकार : 17.77 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • विन्यास विवरण : ko में अनुवादित

  • डेटासेट का आकार : 16.42 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki/zh

  • विन्यास विवरण : zh में अनुवादित

  • डेटासेट का आकार : 13.20 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 2,000