- विवरण :
एएसक्यूए पहला दीर्घकालिक प्रश्न उत्तर देने वाला डेटासेट है जो अस्पष्ट तथ्यात्मक प्रश्नों पर केंद्रित है। पिछले लंबे-फ़ॉर्म वाले उत्तर डेटासेट से अलग, प्रत्येक प्रश्न को लंबे-फ़ॉर्म वाले उत्तरों और निष्कर्षात्मक प्रश्न-उत्तर जोड़े दोनों के साथ एनोटेट किया जाता है, जिसका उत्तर उत्पन्न अनुच्छेद द्वारा दिया जाना चाहिए। उत्पन्न दीर्घ-फ़ॉर्म उत्तर का मूल्यांकन ROUGE और QA सटीकता दोनों का उपयोग करके किया जाएगा। हमने दिखाया कि ये मूल्यांकन मेट्रिक्स मानवीय निर्णय के साथ अच्छी तरह से जुड़े हुए हैं। इस रिस्टोरी में हम मूल्यांकन कोड के साथ ASQA डेटासेट जारी करते हैं: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
मुखपृष्ठ : https://github.com/google-research/भाषा/पेड़/मास्टर /भाषा/asqa
स्रोत कोड :
tfds.datasets.asqa.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़। -
2.0.0
: नमूना आईडी int32 (अतिप्रवाह) से int64 तक जाती है।
-
डाउनलोड आकार :
17.86 MiB
डेटासेट का आकार :
14.50 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'dev' | 948 |
'train' | 4,353 |
- फ़ीचर संरचना :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
अस्पष्ट_प्रश्न | मूलपाठ | डोरी | एंबिगक्यूए से अस्पष्ट प्रश्न। | |
एनोटेशन | अनुक्रम | एएसक्यूए एनोटेटर्स द्वारा निर्मित अस्पष्ट प्रश्न के लंबे-चौड़े उत्तर। | ||
टिप्पणियाँ/ज्ञान | अनुक्रम | अतिरिक्त ज्ञान के टुकड़ों की सूची. | ||
टिप्पणियाँ/ज्ञान/सामग्री | मूलपाठ | डोरी | विकिपीडिया से एक अंश. | |
टिप्पणियाँ/ज्ञान/विकीपेज | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक जहाँ से यह अंश लिया गया है। | |
टिप्पणियाँ/दीर्घ_उत्तर | मूलपाठ | डोरी | एनोटेशन. | |
qa_जोड़े | अनुक्रम | एंबिगक्यूए से प्रश्नोत्तर जोड़े जिनका उपयोग अस्पष्टता के लिए किया जाता है। | ||
qa_जोड़े/संदर्भ | मूलपाठ | डोरी | अतिरिक्त संदर्भ प्रदान किया गया. | |
qa_जोड़े/प्रश्न | मूलपाठ | डोरी | ||
qa_जोड़े/लघु_उत्तर | अनुक्रम(पाठ) | (कोई नहीं,) | डोरी | एंबिगक्यूए से संक्षिप्त उत्तरों की सूची। |
qa_जोड़े/विकीपेज | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक जिसमें अतिरिक्त संदर्भ लिया गया था। | |
नमूना_आईडी | टेन्सर | int64 | ||
विकिपीडिया | अनुक्रम | एंबिगक्यूए एनोटेटर्स द्वारा देखे गए विकिपीडिया पृष्ठों की सूची। | ||
विकिपेज/शीर्षक | मूलपाठ | डोरी | विकिपीडिया पृष्ठ का शीर्षक. | |
विकिपेज/यूआरएल | मूलपाठ | डोरी | विकिपीडिया पृष्ठ से लिंक करें। |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}