q_re_cc

  • Descripción :

Un conjunto de datos que contiene 14.000 conversaciones con 81.000 pares de preguntas y respuestas. QReCC se basa en preguntas de TREC CAsT, QuAC y Google Natural Question.

Dividir Ejemplos
'test' 16.451
'train' 63.501
  • Estructura de características :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32, description=The id of the conversation.),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32, description=The id of the conversation turn, within a conversation.),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
respuesta Texto cadena
respuesta_url Texto cadena
contexto Secuencia (Texto) (Ninguno,) cadena
id_conversación Escalar int32 La identificación de la conversación.
pregunta Texto cadena
pregunta_reescritura Texto cadena
fuente Texto cadena La fuente original de los datos, ya sea QuAC, CAsT o Preguntas Naturales.
turn_id Escalar int32 El id del turno de conversación, dentro de una conversación.
  • Cita :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}