- বর্ণনা :
ASSET হল একাধিক পুনঃলিখন রূপান্তর সহ বাক্য সরলীকরণ সিস্টেমের মূল্যায়ন করার জন্য একটি ডেটাসেট, যেমনটি "ASSET: একাধিক পুনর্লিখন রূপান্তর সহ বাক্য সরলীকরণ মডেলগুলির টিউনিং এবং মূল্যায়নের জন্য একটি ডেটাসেট" এ বর্ণিত। কর্পাসটি 2000টি বৈধতা এবং 359টি পরীক্ষার মূল বাক্য দ্বারা গঠিত যা প্রতিটি ভিন্ন টীকাকার দ্বারা 10 বার সরলীকৃত করা হয়েছে। অনেকগুলি স্বয়ংক্রিয় টেক্সট সরলীকরণ সিস্টেমের আউটপুটগুলির জন্য অর্থ সংরক্ষণ, সাবলীলতা এবং সরলতার মানবিক বিচারও এই সংস্থাটিতে রয়েছে।
সোর্স কোড :
tfds.datasets.asset.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড সাইজ :
3.47 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
সম্পদ/সরলীকরণ (ডিফল্ট কনফিগারেশন)
কনফিগারের বিবরণ : প্রতিটির জন্য 10টি সম্ভাব্য সরলীকরণের সাথে সারিবদ্ধ মূল বাক্যের একটি সেট।
ডেটাসেটের আকার :
2.64 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 359 |
'validation' | 2,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
মূল | পাঠ্য | স্ট্রিং | ||
সরলীকরণ | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
সম্পদ/রেটিং
কনফিগার বিবরণ : স্বয়ংক্রিয়ভাবে উত্পাদিত পাঠ্য সরলীকরণের মানব রেটিং।
ডেটাসেটের আকার :
1.44 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'full' | 4,500 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
দৃষ্টিভঙ্গি | ক্লাসলেবেল | int64 | ||
মূল | পাঠ্য | স্ট্রিং | ||
মূল_বাক্য_আইডি | টেনসর | int32 | ||
রেটিং | টেনসর | int32 | ||
সরলীকরণ | পাঠ্য | স্ট্রিং | ||
worker_id | টেনসর | int32 |
- উদাহরণ ( tfds.as_dataframe ):