q_re_cc

  • 説明

81,000 の質問と回答のペアを含む 14,000 の会話を含むデータセット。 QReCC は、TREC CAsT、QuAC、Google Natural question からの質問に基づいて構築されています。

スプリット
'test' 16,451
'train' 63,501
  • 機能の構造:
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32, description=The id of the conversation.),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32, description=The id of the conversation turn, within a conversation.),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
答え文章
答え_url文章
コンテクストシーケンス(テキスト) (なし、)
会話IDスカラーint32会話の ID。
質問文章
質問_リライト文章
ソース文章データの元のソース -- QuAC、CAsT、または Natural question のいずれか
ターンIDスカラーint32会話内の会話ターンの ID。
  • 引用
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}