- विवरण :
TriviaqQA एक रीडिंग कॉम्प्रिहेंशन डेटासेट है जिसमें 650K से अधिक प्रश्न-उत्तर-साक्ष्य ट्रिपल हैं। TriviaqQA में ट्रिविया उत्साही लोगों द्वारा लिखित 95K प्रश्न-उत्तर जोड़े शामिल हैं और स्वतंत्र रूप से साक्ष्य दस्तावेज एकत्र किए गए हैं, औसतन छह प्रति प्रश्न, जो प्रश्नों के उत्तर देने के लिए उच्च गुणवत्ता वाले दूरस्थ पर्यवेक्षण प्रदान करते हैं।
स्रोत कोड :
tfds.datasets.trivia_qa.Builder
संस्करण :
-
1.1.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
फ़ीचर संरचना :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
उत्तर | विशेषताएं डिक्ट | |||
उत्तर/उपनाम | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी | |
उत्तर/मिलान किया_wiki_entity_name | मूलपाठ | डोरी | ||
उत्तर/सामान्यीकृत_उपनाम | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी | |
उत्तर/सामान्यीकृत_मिलान_विकी_इकाई_नाम | मूलपाठ | डोरी | ||
उत्तर/सामान्यीकृत_मूल्य | मूलपाठ | डोरी | ||
उत्तर/प्रकार | मूलपाठ | डोरी | ||
उत्तर/मूल्य | मूलपाठ | डोरी | ||
entity_pages | अनुक्रम | |||
entity_pages/doc_source | मूलपाठ | डोरी | ||
entity_pages/filename | मूलपाठ | डोरी | ||
entity_pages/शीर्षक | मूलपाठ | डोरी | ||
entity_pages/wiki_context | मूलपाठ | डोरी | ||
सवाल | मूलपाठ | डोरी | ||
प्रश्न_आईडी | मूलपाठ | डोरी | ||
प्रश्न_स्रोत | मूलपाठ | डोरी | ||
खोज के परिणाम | अनुक्रम | |||
search_results/description | मूलपाठ | डोरी | ||
search_results/filename | मूलपाठ | डोरी | ||
search_results/रैंक | टेन्सर | int32 | ||
search_results/search_context | मूलपाठ | डोरी | ||
search_results/शीर्षक | मूलपाठ | डोरी | ||
search_results/url | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग होते हैं। विकिपीडिया और खोज परिणामों से संदर्भ शामिल हैं।
डाउनलोड आकार :
2.48 GiB
डेटासेट का आकार :
14.99 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- उदाहरण ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
कॉन्फ़िगरेशन विवरण : प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग होते हैं।
डाउनलोड आकार :
2.48 GiB
डेटासेट का आकार :
196.84 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- उदाहरण ( tfds.as_dataframe ):
trivia_qa/unfiltered
कॉन्फ़िगरेशन विवरण : खुले डोमेन QA के लिए 110k प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग नहीं होते हैं। यह फ़िल्टर न किए गए डेटासेट को IR-शैली QA के लिए अधिक उपयुक्त बनाता है। विकिपीडिया और खोज परिणामों से संदर्भ शामिल हैं।
डाउनलोड आकार :
3.07 GiB
डेटासेट का आकार :
27.27 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- उदाहरण ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
कॉन्फ़िगरेशन विवरण : खुले डोमेन QA के लिए 110k प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग नहीं होते हैं। यह फ़िल्टर न किए गए डेटासेट को IR-शैली QA के लिए अधिक उपयुक्त बनाता है।
डाउनलोड आकार :
603.25 MiB
डेटासेट का आकार :
119.78 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- उदाहरण ( tfds.as_dataframe ):
- विवरण :
TriviaqQA एक रीडिंग कॉम्प्रिहेंशन डेटासेट है जिसमें 650K से अधिक प्रश्न-उत्तर-साक्ष्य ट्रिपल हैं। TriviaqQA में ट्रिविया उत्साही लोगों द्वारा लिखित 95K प्रश्न-उत्तर जोड़े शामिल हैं और स्वतंत्र रूप से साक्ष्य दस्तावेज एकत्र किए गए हैं, औसतन छह प्रति प्रश्न, जो प्रश्नों के उत्तर देने के लिए उच्च गुणवत्ता वाले दूरस्थ पर्यवेक्षण प्रदान करते हैं।
स्रोत कोड :
tfds.datasets.trivia_qa.Builder
संस्करण :
-
1.1.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
फ़ीचर संरचना :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
उत्तर | विशेषताएं डिक्ट | |||
उत्तर/उपनाम | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी | |
उत्तर/मिलान किया_wiki_entity_name | मूलपाठ | डोरी | ||
उत्तर/सामान्यीकृत_उपनाम | अनुक्रम (पाठ) | (कोई नहीं,) | डोरी | |
उत्तर/सामान्यीकृत_मिलान_विकी_इकाई_नाम | मूलपाठ | डोरी | ||
उत्तर/सामान्यीकृत_मूल्य | मूलपाठ | डोरी | ||
उत्तर/प्रकार | मूलपाठ | डोरी | ||
उत्तर/मूल्य | मूलपाठ | डोरी | ||
entity_pages | अनुक्रम | |||
entity_pages/doc_source | मूलपाठ | डोरी | ||
entity_pages/filename | मूलपाठ | डोरी | ||
entity_pages/शीर्षक | मूलपाठ | डोरी | ||
entity_pages/wiki_context | मूलपाठ | डोरी | ||
सवाल | मूलपाठ | डोरी | ||
प्रश्न_आईडी | मूलपाठ | डोरी | ||
प्रश्न_स्रोत | मूलपाठ | डोरी | ||
खोज के परिणाम | अनुक्रम | |||
search_results/description | मूलपाठ | डोरी | ||
search_results/filename | मूलपाठ | डोरी | ||
search_results/रैंक | टेन्सर | int32 | ||
search_results/search_context | मूलपाठ | डोरी | ||
search_results/शीर्षक | मूलपाठ | डोरी | ||
search_results/url | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग होते हैं। विकिपीडिया और खोज परिणामों से संदर्भ शामिल हैं।
डाउनलोड आकार :
2.48 GiB
डेटासेट का आकार :
14.99 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- उदाहरण ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
कॉन्फ़िगरेशन विवरण : प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग होते हैं।
डाउनलोड आकार :
2.48 GiB
डेटासेट का आकार :
196.84 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- उदाहरण ( tfds.as_dataframe ):
trivia_qa/unfiltered
कॉन्फ़िगरेशन विवरण : खुले डोमेन QA के लिए 110k प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग नहीं होते हैं। यह फ़िल्टर न किए गए डेटासेट को IR-शैली QA के लिए अधिक उपयुक्त बनाता है। विकिपीडिया और खोज परिणामों से संदर्भ शामिल हैं।
डाउनलोड आकार :
3.07 GiB
डेटासेट का आकार :
27.27 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- उदाहरण ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
कॉन्फ़िगरेशन विवरण : खुले डोमेन QA के लिए 110k प्रश्न-उत्तर जोड़े जहां किसी दिए गए प्रश्न के सभी दस्तावेज़ों में उत्तर स्ट्रिंग नहीं होते हैं। यह फ़िल्टर न किए गए डेटासेट को IR-शैली QA के लिए अधिक उपयुक्त बनाता है।
डाउनलोड आकार :
603.25 MiB
डेटासेट का आकार :
119.78 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- उदाहरण ( tfds.as_dataframe ):