- विवरण :
एनक्यू कॉर्पस में वास्तविक उपयोगकर्ताओं के प्रश्न शामिल हैं, और इसके लिए पूरे विकिपीडिया लेख को पढ़ने और समझने के लिए क्यूए सिस्टम की आवश्यकता होती है, जिसमें प्रश्न का उत्तर हो भी सकता है और नहीं भी। वास्तविक उपयोगकर्ता प्रश्नों का समावेश, और आवश्यकता है कि उत्तर खोजने के लिए समाधानों को एक पूरे पृष्ठ को पढ़ना चाहिए, एनक्यू को पिछले क्यूए डेटासेट की तुलना में अधिक यथार्थवादी और चुनौतीपूर्ण कार्य बनाता है।
मुखपृष्ठ : https://ai.google.com/research/NaturalQuestions/dataset
स्रोत कोड :
tfds.datasets.natural_questions.Builder
संस्करण :
-
0.0.2
: कोई रिलीज नोट नहीं। -
0.1.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड का आकार :
41.97 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 307,373 |
'validation' | 7,830 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
प्राकृतिक_प्रश्न/डिफ़ॉल्ट (डिफ़ॉल्ट कॉन्फ़िगरेशन)
विन्यास विवरण : डिफ़ॉल्ट प्राकृतिक_प्रश्न विन्यास
डेटासेट का आकार :
90.26 GiB
फ़ीचर संरचना :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
एनोटेशन | अनुक्रम | |||
एनोटेशन / आईडी | टेन्सर | डोरी | ||
एनोटेशन/long_answer | विशेषताएं डिक्ट | |||
एनोटेशन/long_answer/end_byte | टेन्सर | int64 | ||
एनोटेशन/long_answer/end_token | टेन्सर | int64 | ||
एनोटेशन/long_answer/start_byte | टेन्सर | int64 | ||
एनोटेशन/long_answer/start_token | टेन्सर | int64 | ||
एनोटेशन/short_answers | अनुक्रम | |||
एनोटेशन/short_answers/end_byte | टेन्सर | int64 | ||
एनोटेशन/short_answers/end_token | टेन्सर | int64 | ||
एनोटेशन/short_answers/start_byte | टेन्सर | int64 | ||
एनोटेशन/short_answers/start_token | टेन्सर | int64 | ||
एनोटेशन/short_answers/text | मूलपाठ | डोरी | ||
एनोटेशन/yes_no_answer | क्लासलेबल | int64 | ||
दस्तावेज़ | विशेषताएं डिक्ट | |||
दस्तावेज़/एचटीएमएल | मूलपाठ | डोरी | ||
दस्तावेज़ का शीर्षक | मूलपाठ | डोरी | ||
दस्तावेज़/टोकन | अनुक्रम | |||
दस्तावेज़/टोकन/is_html | टेन्सर | बूल | ||
दस्तावेज़/टोकन/token | मूलपाठ | डोरी | ||
दस्तावेज़/यूआरएल | मूलपाठ | डोरी | ||
पहचान | टेन्सर | डोरी | ||
सवाल | विशेषताएं डिक्ट | |||
प्रश्न / पाठ | मूलपाठ | डोरी | ||
प्रश्न/टोकन | अनुक्रम (टेंसर) | (कोई नहीं,) | डोरी |
- उदाहरण ( tfds.as_dataframe ):
प्राकृतिक_प्रश्न/longt5
कॉन्फिग विवरण : longT5 बेंचमार्क के रूप में प्राकृतिक_प्रश्न पूर्वसंसाधित
डेटासेट का आकार :
8.91 GiB
फ़ीचर संरचना :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
सभी_उत्तर | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी | |
उत्तर | मूलपाठ | डोरी | ||
प्रसंग | मूलपाठ | डोरी | ||
पहचान | मूलपाठ | डोरी | ||
सवाल | मूलपाठ | डोरी | ||
शीर्षक | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):