- বর্ণনা :
বিদ্যমান প্যারাফ্রেজ আইডেন্টিফিকেশন ডেটাসেটগুলিতে বাক্য জোড়ার অভাব রয়েছে যেগুলি প্যারাফ্রেজ না হয়ে উচ্চ আভিধানিক ওভারল্যাপ রয়েছে। এই ধরনের ডেটাতে প্রশিক্ষিত মডেলগুলি নিউ ইয়র্ক থেকে ফ্লোরিডা এবং ফ্লোরিডা থেকে নিউ ইয়র্কের ফ্লাইটের মতো জোড়া আলাদা করতে ব্যর্থ হয়৷ এই ডেটাসেটে 108,463টি মানব-লেবেলযুক্ত এবং 656k সশব্দে লেবেলযুক্ত জোড়া রয়েছে যা প্যারাফ্রেজ সনাক্তকরণের সমস্যার জন্য মডেলিং কাঠামো, প্রসঙ্গ এবং শব্দ ক্রম তথ্যের গুরুত্বকে বৈশিষ্ট্যযুক্ত করে।
আরও বিশদ বিবরণের জন্য, সাথে থাকা কাগজটি দেখুন: PAWS: ওয়ার্ড স্ক্র্যাম্বলিং থেকে প্যারাফ্রেজ অ্যাডভারসারিজ https://arxiv.org/abs/1904.01130
এই কর্পাসে উইকিপিডিয়া পৃষ্ঠাগুলি থেকে উত্পন্ন জোড়া রয়েছে, যে জোড়া রয়েছে যা শব্দ অদলবদল এবং ব্যাক ট্রান্সলেশন উভয় পদ্ধতি থেকে তৈরি করা হয়। সমস্ত জোড়ার প্যারাফ্রেজিং এবং সাবলীল উভয় বিষয়ে মানুষের বিচার আছে এবং সেগুলিকে ট্রেন/দেব/পরীক্ষা বিভাগে বিভক্ত করা হয়েছে।
সমস্ত ফাইল চারটি কলাম সহ tsv বিন্যাসে রয়েছে:
-
id
: প্রতিটি জোড়ার জন্য একটি অনন্য আইডি। -
sentence1
1 : প্রথম বাক্য। -
sentence2
: দ্বিতীয় বাক্য। -
(noisy_)label
: (কোলাহলপূর্ণ) প্রতিটি জোড়ার জন্য লেবেল।
প্রতিটি লেবেলের দুটি সম্ভাব্য মান রয়েছে: 0 নির্দেশ করে যে জোড়াটির আলাদা অর্থ রয়েছে, যখন 1 নির্দেশ করে জোড়াটি একটি প্যারাফ্রেজ।
উত্স কোড :
tfds.datasets.paws_wiki.Builder
সংস্করণ :
-
1.0.0
: প্রাথমিক সংস্করণ। -
1.1.0
(ডিফল্ট): বিভিন্ন উপসেটে কনফিগার যোগ করে এবং কাঁচা পাঠকে সমর্থন করে।
-
ডাউনলোড সাইজ :
57.47 MiB
বৈশিষ্ট্য গঠন :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (ডিফল্ট কনফিগারেশন)
কনফিগারের বিবরণ : উপসেট: লেবেলড_ফাইনাল টোকেনাইজড: সত্য
ডেটাসেটের আকার :
17.96 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- উদাহরণ ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
কনফিগারের বিবরণ : উপসেট: লেবেলড_ফাইনাল টোকেনাইজড: মিথ্যা
ডেটাসেটের আকার :
17.57 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- উদাহরণ ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
কনফিগারের বিবরণ : উপসেট: লেবেলড_সোয়াপ টোকেনাইজড: সত্য
ডেটাসেটের আকার :
8.79 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 30,397 |
- উদাহরণ ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
কনফিগারের বিবরণ : উপসেট: লেবেলড_সোয়াপ টোকেনাইজড: মিথ্যা
ডেটাসেটের আকার :
8.60 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 30,397 |
- উদাহরণ ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
কনফিগার বিবরণ : উপসেট: unlabeled_final tokenized: True
ডেটাসেটের আকার :
177.89 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (বৈধকরণ), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ৬৪৫,৬৫২ |
'validation' | 10,000 |
- উদাহরণ ( tfds.as_dataframe ):