q_re_cc

  • विवरण :

एक डेटासेट जिसमें 81K प्रश्न-उत्तर जोड़े के साथ 14K वार्तालाप हैं। QReCC TREC CAsT, QuAC और Google प्राकृतिक प्रश्नों के प्रश्नों पर बनाया गया है।

विभाजित करना उदाहरण
'test' 16,451
'train' 63,501
  • फ़ीचर संरचना :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32, description=The id of the conversation.),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32, description=The id of the conversation turn, within a conversation.),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
उत्तर मूलपाठ डोरी
उत्तर_यूआरएल मूलपाठ डोरी
प्रसंग अनुक्रम(पाठ) (कोई नहीं,) डोरी
बातचीत_आईडी अदिश int32 बातचीत की आईडी.
सवाल मूलपाठ डोरी
प्रश्न_पुनर्लिखित मूलपाठ डोरी
स्रोत मूलपाठ डोरी डेटा का मूल स्रोत - या तो क्वैक, सीएएसटी या प्राकृतिक प्रश्न
टर्न_आईडी अदिश int32 बातचीत की आईडी, बातचीत के भीतर बदल जाती है।
  • उद्धरण :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}