- বর্ণনা :
স্ট্যানফোর্ড কোয়েশ্চেন অ্যানসারিং ডেটাসেট (SQuAD) হল একটি রিডিং কম্প্রিহেনশন ডেটাসেট, যা উইকিপিডিয়া নিবন্ধগুলির একটি সেটে ভিড় কর্মীর দ্বারা উত্থাপিত প্রশ্নগুলির সমন্বয়ে গঠিত, যেখানে প্রতিটি প্রশ্নের উত্তরটি পাঠ্যের একটি অংশ, বা স্প্যান, সংশ্লিষ্ট পাঠ্যাংশ বা প্রশ্ন থেকে উত্তরহীন হতে পারে।
সোর্স কোড :
tfds.datasets.squad.Builder
সংস্করণ :
-
3.0.0
(ডিফল্ট): অল্প সংখ্যক উদাহরণ সহ সমস্যা সমাধান করে (19) যেখানে প্রসঙ্গ সাদা-স্পেস অপসারণের কারণে উত্তরের স্প্যানগুলি ভুলভাবে সংযোজিত হয়েছে।
-
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
স্কোয়াড/v1.1 (ডিফল্ট কনফিগারেশন)
কনফিগার বিবরণ : SQUAD এর সংস্করণ 1.1.0
ডাউনলোড আকার :
33.51 MiB
ডেটাসেটের আকার :
94.06 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ৮৭,৫৯৯ |
'validation' | 10,570 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উত্তর | ক্রম | |||
উত্তর/উত্তর_শুরু | টেনসর | int32 | ||
উত্তর/পাঠ্য | পাঠ্য | স্ট্রিং | ||
প্রসঙ্গ | পাঠ্য | স্ট্রিং | ||
আইডি | টেনসর | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং | ||
শিরোনাম | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
স্কোয়াড/v2.0
কনফিগারেশনের বিবরণ : SQUAD এর সংস্করণ 2.0.0
ডাউনলোড
44.34 MiB
ডেটাসেটের আকার :
148.54 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (বৈধকরণ), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 130,319 |
'validation' | 11,873 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উত্তর | ক্রম | |||
উত্তর/উত্তর_শুরু | টেনসর | int32 | ||
উত্তর/পাঠ্য | পাঠ্য | স্ট্রিং | ||
প্রসঙ্গ | পাঠ্য | স্ট্রিং | ||
আইডি | টেনসর | স্ট্রিং | ||
অসম্ভব | টেনসর | bool | ||
যুক্তিসঙ্গত_উত্তর | ক্রম | |||
প্রশংসনীয়_উত্তর/উত্তর_শুরু | টেনসর | int32 | ||
প্রশংসনীয়_উত্তর/পাঠ্য | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং | ||
শিরোনাম | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):