- 설명 :
WikiDialog는 종합적으로 생성된 정보 검색 대화의 대규모 데이터 세트입니다. 데이터 세트의 각 대화에는 영어 Wikipedia의 구절에 근거한 두 명의 화자가 포함되어 있습니다. 한 화자의 발화는 구절의 정확한 문장으로 구성됩니다. 다른 스피커는 큰 언어 모델에 의해 생성됩니다.
구성 설명 : OR-QuAC 및 QReCC에서 미세 조정된 대화 상자 인페인터에서 생성된 WikiDialog.
OQ
는 OR-QuAC 및 QReCC를 나타냅니다.홈페이지 : https://github.com/google-research/dialog-inpainting#wikidialog-oq
소스 코드 :
tfds.text.wiki_dialog.WikiDialog
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
7.04 GiB
데이터세트 크기 :
36.58 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 11,264,129 |
'validation' | 113,822 |
- 기능 구조 :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
저자_번호 | 시퀀스(텐서) | (없음,) | int32 | |
통로 | 텍스트 | 끈 | ||
pid | 텍스트 | 끈 | ||
문장 | 시퀀스(텍스트) | (없음,) | 끈 | |
제목 | 텍스트 | 끈 | ||
발화 | 시퀀스(텍스트) | (없음,) | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}