- বর্ণনা :
NQ কর্পাসে প্রকৃত ব্যবহারকারীদের কাছ থেকে প্রশ্ন রয়েছে, এবং এটির জন্য QA সিস্টেমের প্রয়োজন একটি সম্পূর্ণ উইকিপিডিয়া নিবন্ধ পড়তে এবং বোঝার জন্য যাতে প্রশ্নের উত্তর থাকতে পারে বা নাও থাকতে পারে। প্রকৃত ব্যবহারকারীর প্রশ্ন অন্তর্ভুক্ত করা, এবং উত্তর খোঁজার জন্য সমাধানগুলির একটি সম্পূর্ণ পৃষ্ঠা পড়া উচিত, যার ফলে পূর্বের QA ডেটাসেটের তুলনায় NQ-কে আরও বাস্তবসম্মত এবং চ্যালেঞ্জিং কাজ হতে পারে।
হোমপেজ : https://ai.google.com/research/NaturalQuestions/dataset
সোর্স কোড :
tfds.datasets.natural_questions.Builder
সংস্করণ :
-
0.0.2
: কোনো রিলিজ নোট নেই। -
0.1.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
41.97 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 307,373 |
'validation' | 7,830 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
প্রাকৃতিক_প্রশ্ন/ডিফল্ট (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : ডিফল্ট প্রাকৃতিক_প্রশ্ন কনফিগার
ডেটাসেটের আকার :
90.26 GiB
বৈশিষ্ট্য গঠন :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
টীকা | ক্রম | |||
টীকা/আইডি | টেনসর | স্ট্রিং | ||
টীকা/দীর্ঘ_উত্তর | ফিচারসডিক্ট | |||
টীকা/long_answer/end_byte | টেনসর | int64 | ||
টীকা/দীর্ঘ_উত্তর/এন্ড_টোকেন | টেনসর | int64 | ||
টীকা/long_answer/start_byte | টেনসর | int64 | ||
টীকা/long_answer/start_token | টেনসর | int64 | ||
টীকা/ছোট_উত্তর | ক্রম | |||
টীকা/short_answers/end_byte | টেনসর | int64 | ||
টীকা/ছোট_উত্তর/এন্ড_টোকেন | টেনসর | int64 | ||
টীকা/short_answers/start_byte | টেনসর | int64 | ||
টীকা/ছোট_উত্তর/স্টার্ট_টোকেন | টেনসর | int64 | ||
টীকা/ছোট_উত্তর/পাঠ্য | পাঠ্য | স্ট্রিং | ||
টীকা/হ্যাঁ_না_উত্তর | ক্লাসলেবেল | int64 | ||
নথি | ফিচারসডিক্ট | |||
নথি/html | পাঠ্য | স্ট্রিং | ||
নথির শিরোনাম | পাঠ্য | স্ট্রিং | ||
নথি/টোকেন | ক্রম | |||
নথি/টোকেন/is_html | টেনসর | bool | ||
নথি/টোকেন/টোকেন | পাঠ্য | স্ট্রিং | ||
নথি/ইউআরএল | পাঠ্য | স্ট্রিং | ||
আইডি | টেনসর | স্ট্রিং | ||
প্রশ্ন | ফিচারসডিক্ট | |||
প্রশ্ন/পাঠ্য | পাঠ্য | স্ট্রিং | ||
প্রশ্ন/টোকেন | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
প্রাকৃতিক_প্রশ্ন/দীর্ঘ5
কনফিগারেশনের বিবরণ : প্রাকৃতিক_প্রশ্নগুলি লংটি 5 বেঞ্চমার্কের মতোই প্রিপ্রসেস করা হয়েছে
ডেটাসেটের আকার :
8.91 GiB
বৈশিষ্ট্য গঠন :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
সব_উত্তর | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | |
উত্তর | পাঠ্য | স্ট্রিং | ||
প্রসঙ্গ | পাঠ্য | স্ট্রিং | ||
আইডি | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং | ||
শিরোনাম | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):