- বর্ণনা :
এই ডেটাসেটে 23,659টি মানব অনুদিত PAWS মূল্যায়ন জোড়া এবং 296,406টি মেশিন অনুবাদিত প্রশিক্ষণ জোড়া রয়েছে ছয়টি typologically স্বতন্ত্র ভাষায়:
- ফরাসি
- স্পেনীয়
- জার্মান
- চাইনিজ
- জাপানিজ
- কোরিয়ান
আরও বিশদ বিবরণের জন্য, সহগামী কাগজটি দেখুন: PAWS-X: https://arxiv.org/abs/1908.11828- এ প্যারাফ্রেজ আইডেন্টিফিকেশনের জন্য একটি ক্রস-লিঙ্গুয়াল অ্যাডভারসারিয়াল ডেটাসেট
PAWS ডেটাসেটের অনুরূপ, উদাহরণগুলিকে ট্রেন/দেব/পরীক্ষা বিভাগে বিভক্ত করা হয়েছে। সমস্ত ফাইল চারটি কলাম সহ tsv বিন্যাসে রয়েছে:
-
id
: প্রতিটি জোড়ার জন্য একটি অনন্য আইডি। -
sentence1
1 : প্রথম বাক্য। -
sentence2
: দ্বিতীয় বাক্য। -
(noisy_)label
: (কোলাহলপূর্ণ) প্রতিটি জোড়ার জন্য লেবেল।
প্রতিটি লেবেলের দুটি সম্ভাব্য মান রয়েছে: 0 নির্দেশ করে যে জোড়াটির আলাদা অর্থ রয়েছে, যখন 1 নির্দেশ করে জোড়াটি একটি প্যারাফ্রেজ।
হোমপেজ : https://github.com/google-research-datasets/paws/tree/master/pawsx
উত্স কোড :
tfds.datasets.paws_x_wiki.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
28.88 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বৈশিষ্ট্য গঠন :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : ডি-তে অনুবাদ করা হয়েছে
ডেটাসেটের আকার :
15.27 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- উদাহরণ ( tfds.as_dataframe ):
paws_x_wiki/en
কনফিগারেশনের বিবরণ : en এ অনুবাদ করা হয়েছে
ডেটাসেটের আকার :
14.59 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- উদাহরণ ( tfds.as_dataframe ):
paws_x_wiki/es
কনফিগারেশনের বিবরণ : es-এ অনুবাদ করা হয়েছে
ডেটাসেটের আকার :
15.27 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- উদাহরণ ( tfds.as_dataframe ):
paws_x_wiki/fr
কনফিগারেশনের বিবরণ : fr
ডেটাসেটের আকার :
15.79 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- উদাহরণ ( tfds.as_dataframe ):
paws_x_wiki/ja
কনফিগারেশনের বিবরণ : ja তে অনুবাদ করা হয়েছে
ডেটাসেটের আকার :
17.77 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- উদাহরণ ( tfds.as_dataframe ):
paws_x_wiki/ko
কনফিগারেশনের বিবরণ : ko-তে অনুবাদ করা হয়েছে
ডেটাসেটের আকার :
16.42 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- উদাহরণ ( tfds.as_dataframe ):
paws_x_wiki/zh
কনফিগারের বিবরণ : zh-এ অনুবাদ করা হয়েছে
ডেটাসেটের আকার :
13.20 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- উদাহরণ ( tfds.as_dataframe ):