paws_wiki

  • বর্ণনা :

বিদ্যমান প্যারাফ্রেজ আইডেন্টিফিকেশন ডেটাসেটগুলিতে বাক্য জোড়ার অভাব রয়েছে যেগুলি প্যারাফ্রেজ না হয়ে উচ্চ আভিধানিক ওভারল্যাপ রয়েছে। এই ধরনের ডেটাতে প্রশিক্ষিত মডেলগুলি নিউ ইয়র্ক থেকে ফ্লোরিডা এবং ফ্লোরিডা থেকে নিউ ইয়র্কের ফ্লাইটের মতো জোড়া আলাদা করতে ব্যর্থ হয়৷ এই ডেটাসেটে 108,463টি মানব-লেবেলযুক্ত এবং 656k সশব্দে লেবেলযুক্ত জোড়া রয়েছে যা প্যারাফ্রেজ সনাক্তকরণের সমস্যার জন্য মডেলিং কাঠামো, প্রসঙ্গ এবং শব্দ ক্রম তথ্যের গুরুত্বকে বৈশিষ্ট্যযুক্ত করে।

আরও বিশদ বিবরণের জন্য, সাথে থাকা কাগজটি দেখুন: PAWS: ওয়ার্ড স্ক্র্যাম্বলিং থেকে প্যারাফ্রেজ অ্যাডভারসারিজ https://arxiv.org/abs/1904.01130

এই কর্পাসে উইকিপিডিয়া পৃষ্ঠাগুলি থেকে উত্পন্ন জোড়া রয়েছে, যে জোড়া রয়েছে যা শব্দ অদলবদল এবং ব্যাক ট্রান্সলেশন উভয় পদ্ধতি থেকে তৈরি করা হয়। সমস্ত জোড়ার প্যারাফ্রেজিং এবং সাবলীল উভয় বিষয়ে মানুষের বিচার আছে এবং সেগুলিকে ট্রেন/দেব/পরীক্ষা বিভাগে বিভক্ত করা হয়েছে।

সমস্ত ফাইল চারটি কলাম সহ tsv বিন্যাসে রয়েছে:

  1. id : প্রতিটি জোড়ার জন্য একটি অনন্য আইডি।
  2. sentence1 1 : প্রথম বাক্য।
  3. sentence2 : দ্বিতীয় বাক্য।
  4. (noisy_)label : (কোলাহলপূর্ণ) প্রতিটি জোড়ার জন্য লেবেল।

প্রতিটি লেবেলের দুটি সম্ভাব্য মান রয়েছে: 0 নির্দেশ করে যে জোড়াটির আলাদা অর্থ রয়েছে, যখন 1 নির্দেশ করে জোড়াটি একটি প্যারাফ্রেজ।

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লেবেল ক্লাসলেবেল int64
বাক্য1 পাঠ্য স্ট্রিং
বাক্য2 পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (ডিফল্ট কনফিগারেশন)

  • কনফিগারের বিবরণ : উপসেট: লেবেলড_ফাইনাল টোকেনাইজড: সত্য

  • ডেটাসেটের আকার : 17.96 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_final_raw

  • কনফিগারের বিবরণ : উপসেট: লেবেলড_ফাইনাল টোকেনাইজড: মিথ্যা

  • ডেটাসেটের আকার : 17.57 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_swap_tokenized

  • কনফিগারের বিবরণ : উপসেট: লেবেলড_সোয়াপ টোকেনাইজড: সত্য

  • ডেটাসেটের আকার : 8.79 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 30,397

paws_wiki/labeled_swap_raw

  • কনফিগারের বিবরণ : উপসেট: লেবেলড_সোয়াপ টোকেনাইজড: মিথ্যা

  • ডেটাসেটের আকার : 8.60 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 30,397

paws_wiki/unlabeled_final_tokenized

  • কনফিগার বিবরণ : উপসেট: unlabeled_final tokenized: True

  • ডেটাসেটের আকার : 177.89 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (বৈধকরণ), শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৬৪৫,৬৫২
'validation' 10,000