paws_x_wiki

  • বর্ণনা :

এই ডেটাসেটে 23,659টি মানব অনুদিত PAWS মূল্যায়ন জোড়া এবং 296,406টি মেশিন অনুবাদিত প্রশিক্ষণ জোড়া রয়েছে ছয়টি typologically স্বতন্ত্র ভাষায়:

  • ফরাসি
  • স্পেনীয়
  • জার্মান
  • চাইনিজ
  • জাপানিজ
  • কোরিয়ান

আরও বিশদ বিবরণের জন্য, সহগামী কাগজটি দেখুন: PAWS-X: https://arxiv.org/abs/1908.11828- এ প্যারাফ্রেজ আইডেন্টিফিকেশনের জন্য একটি ক্রস-লিঙ্গুয়াল অ্যাডভারসারিয়াল ডেটাসেট

PAWS ডেটাসেটের অনুরূপ, উদাহরণগুলিকে ট্রেন/দেব/পরীক্ষা বিভাগে বিভক্ত করা হয়েছে। সমস্ত ফাইল চারটি কলাম সহ tsv বিন্যাসে রয়েছে:

  1. id : প্রতিটি জোড়ার জন্য একটি অনন্য আইডি।
  2. sentence1 1 : প্রথম বাক্য।
  3. sentence2 : দ্বিতীয় বাক্য।
  4. (noisy_)label : (কোলাহলপূর্ণ) প্রতিটি জোড়ার জন্য লেবেল।

প্রতিটি লেবেলের দুটি সম্ভাব্য মান রয়েছে: 0 নির্দেশ করে যে জোড়াটির আলাদা অর্থ রয়েছে, যখন 1 নির্দেশ করে জোড়াটি একটি প্যারাফ্রেজ।

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লেবেল ক্লাসলেবেল int64
বাক্য1 পাঠ্য স্ট্রিং
বাক্য2 পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : ডি-তে অনুবাদ করা হয়েছে

  • ডেটাসেটের আকার : 15.27 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/en

  • কনফিগারেশনের বিবরণ : en এ অনুবাদ করা হয়েছে

  • ডেটাসেটের আকার : 14.59 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • কনফিগারেশনের বিবরণ : es-এ অনুবাদ করা হয়েছে

  • ডেটাসেটের আকার : 15.27 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki/fr

  • কনফিগারেশনের বিবরণ : fr

  • ডেটাসেটের আকার : 15.79 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • কনফিগারেশনের বিবরণ : ja তে অনুবাদ করা হয়েছে

  • ডেটাসেটের আকার : 17.77 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • কনফিগারেশনের বিবরণ : ko-তে অনুবাদ করা হয়েছে

  • ডেটাসেটের আকার : 16.42 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki/zh

  • কনফিগারের বিবরণ : zh-এ অনুবাদ করা হয়েছে

  • ডেটাসেটের আকার : 13.20 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,000
'train' 49,401
'validation' 2,000