- Описание :
Набор данных, содержащий 14 тысяч разговоров с 81 тысячой пар вопрос-ответ. QReCC построен на вопросах из TREC CAsT, QuAC и Google Natural Questions.
Домашняя страница : https://github.com/apple/ml-qrecc .
Исходный код :
tfds.text.qrecc.QReCC
Версии :
-
1.0.0
(по умолчанию): первоначальный выпуск.
-
Размер загрузки :
7.60 MiB
Размер набора данных :
69.29 MiB
Автокэширование ( документация ): Да
Расколы :
Расколоть | Примеры |
---|---|
'test' | 16 451 |
'train' | 63 501 |
- Структура функции :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'answer_url': Text(shape=(), dtype=string),
'context': Sequence(Text(shape=(), dtype=string)),
'conversation_id': Scalar(shape=(), dtype=int32, description=The id of the conversation.),
'question': Text(shape=(), dtype=string),
'question_rewrite': Text(shape=(), dtype=string),
'source': Text(shape=(), dtype=string),
'turn_id': Scalar(shape=(), dtype=int32, description=The id of the conversation turn, within a conversation.),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
отвечать | Текст | нить | ||
ответ_url | Текст | нить | ||
контекст | Последовательность (Текст) | (Никто,) | нить | |
идентификатор_разговора | Скаляр | int32 | Идентификатор разговора. | |
вопрос | Текст | нить | ||
вопрос_переписать | Текст | нить | ||
источник | Текст | нить | Исходный источник данных – QuAC, CAsT или Natural Issues. | |
Turn_id | Скаляр | int32 | Идентификатор поворота разговора внутри разговора. |
Контролируемые ключи (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{qrecc,
title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
year={2021}
}