- বর্ণনা :
WikiAuto ইংরেজি উইকিপিডিয়া এবং সাধারণ ইংরেজি উইকিপিডিয়া থেকে বাক্য সরলীকরণ ব্যবস্থাকে প্রশিক্ষণের জন্য একটি সংস্থান হিসাবে সারিবদ্ধ বাক্যের একটি সেট সরবরাহ করে। লেখকরা প্রথমে সাধারণ ইংরেজি উইকিপিডিয়ার একটি উপসেট এবং ইংরেজি উইকিপিডিয়াতে তাদের সংশ্লিষ্ট সংস্করণগুলির মধ্যে বাক্যগুলির মধ্যে ম্যানুয়াল অ্যালাইনমেন্টের একটি সেট ক্রাউড-সোর্স করেন (এটি manual
কনফিগারেশনের সাথে মিলে যায়), তারপর এই প্রান্তিককরণগুলির পূর্বাভাস দেওয়ার জন্য একটি নিউরাল CRF সিস্টেমকে প্রশিক্ষণ দেন। প্রশিক্ষিত মডেলটি তখন সরল ইংরেজি উইকিপিডিয়ার অন্যান্য নিবন্ধগুলিতে একটি ইংরেজি প্রতিরূপের সাথে সারিবদ্ধ বাক্যগুলির একটি বৃহত্তর কর্পাস তৈরি করতে প্রয়োগ করা হয়েছিল (এখানে auto
, auto_acl
, auto_full_no_split
, এবং auto_full_with_split
সাথে সম্পর্কিত)।
উত্স কোড :
tfds.text_simplification.wiki_auto.WikiAuto
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
উইকি_অটো/ম্যানুয়াল (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : ভিড় কর্মীদের দ্বারা সারিবদ্ধ 10K উইকিপিডিয়া বাক্য জোড়ার একটি সেট।
ডাউনলোড সাইজ :
53.47 MiB
ডেটাসেটের আকার :
76.87 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
GLEU-স্কোর | টেনসর | float64 | ||
প্রান্তিককরণ_লেবেল | ক্লাসলেবেল | int64 | ||
স্বাভাবিক_বাক্য | পাঠ্য | স্ট্রিং | ||
normal_sentence_id | পাঠ্য | স্ট্রিং | ||
সহজ বাক্য | পাঠ্য | স্ট্রিং | ||
সহজ_বাক্য_আইডি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
wiki_auto/auto_acl
কনফিগারেশনের বিবরণ : ACL2020 সিস্টেমকে প্রশিক্ষণ দিতে বাক্য জোড়া সারিবদ্ধ।
ডাউনলোড আকার :
112.60 MiB
ডেটাসেটের আকার :
138.83 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন
shuffle_files=False
(সম্পূর্ণ)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'full' | ৪৮৮,৩৩২ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
স্বাভাবিক_বাক্য | পাঠ্য | স্ট্রিং | ||
সহজ বাক্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
কনফিগারের বিবরণ : বাক্য বিভাজন ছাড়াই সমস্ত স্বয়ংক্রিয়ভাবে সারিবদ্ধ বাক্য জোড়া।
ডাউনলোড আকার :
135.02 MiB
ডেটাসেটের আকার :
166.78 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন
shuffle_files=False
(সম্পূর্ণ)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'full' | ৫৯১,৯৯৪ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
স্বাভাবিক_বাক্য | পাঠ্য | স্ট্রিং | ||
সহজ বাক্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
কনফিগারের বিবরণ : বাক্য বিভাজনের সাথে সমস্ত স্বয়ংক্রিয়ভাবে সারিবদ্ধ বাক্য জোড়া।
ডাউনলোডের আকার :
115.09 MiB
ডেটাসেটের আকার :
141.20 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন
shuffle_files=False
(সম্পূর্ণ)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'full' | 483,801 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
স্বাভাবিক_বাক্য | পাঠ্য | স্ট্রিং | ||
সহজ বাক্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
উইকি_অটো/অটো
কনফিগার বর্ণনা : স্বয়ংক্রিয়ভাবে সারিবদ্ধ বাক্য জোড়ার একটি বড় সেট।
ডাউনলোড সাইজ :
2.01 GiB
ডেটাসেটের আকার :
1.76 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'part_1' | 125,059 |
'part_2' | 13,036 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উদাহরণ_আইডি | পাঠ্য | স্ট্রিং | ||
স্বাভাবিক | ফিচারসডিক্ট | |||
স্বাভাবিক/স্বাভাবিক_নিবন্ধ_সামগ্রী | ক্রম | |||
স্বাভাবিক/স্বাভাবিক_নিবন্ধ_সামগ্রী/স্বাভাবিক_বাক্য | পাঠ্য | স্ট্রিং | ||
normal/normal_article_content/normal_sentence_id | পাঠ্য | স্ট্রিং | ||
normal/normal_article_id | টেনসর | int32 | ||
স্বাভাবিক/স্বাভাবিক_নিবন্ধ_শিরোনাম | পাঠ্য | স্ট্রিং | ||
স্বাভাবিক/স্বাভাবিক_আর্টিকেল_ইউআরএল | পাঠ্য | স্ট্রিং | ||
অনুচ্ছেদ_সারিবদ্ধকরণ | ক্রম | |||
অনুচ্ছেদ_অ্যালাইনমেন্ট/সাধারণ_অনুচ্ছেদ_আইডি | পাঠ্য | স্ট্রিং | ||
অনুচ্ছেদ_অ্যালাইনমেন্ট/সাধারণ_অনুচ্ছেদ_আইডি | পাঠ্য | স্ট্রিং | ||
বাক্য_বিন্যাস | ক্রম | |||
sentence_alignment/normal_sentence_id | পাঠ্য | স্ট্রিং | ||
বাক্য_বিন্যাস/সরল_বাক্য_আইডি | পাঠ্য | স্ট্রিং | ||
সহজ | ফিচারসডিক্ট | |||
সহজ/সরল_নিবন্ধ_সামগ্রী | ক্রম | |||
সরল/সরল_নিবন্ধ_সামগ্রী/সরল_বাক্য | পাঠ্য | স্ট্রিং | ||
simple/simple_article_content/simple_sentence_id | পাঠ্য | স্ট্রিং | ||
সরল/সাধারণ_আর্টিকেল_আইডি | টেনসর | int32 | ||
সহজ/সরল_নিবন্ধ_শিরোনাম | পাঠ্য | স্ট্রিং | ||
সহজ/সরল_নিবন্ধ_ইউআরএল | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):