- विवरण :
WikiDialog कृत्रिम रूप से उत्पन्न जानकारी प्राप्त करने वाले वार्तालापों का एक बड़ा डेटासेट है। डेटासेट में प्रत्येक वार्तालाप में अंग्रेज़ी विकिपीडिया के एक अंश पर आधारित दो वक्ता होते हैं: एक वक्ता के कथन में गद्यांश से सटीक वाक्य शामिल होते हैं; अन्य वक्ता एक बड़े भाषा मॉडल द्वारा उत्पन्न होता है।
कॉन्फिग विवरण : ओआर-क्यूएसी और क्यूआरईसीसी पर परिष्कृत पेंटर में संवाद से उत्पन्न विकीडायलॉग।
OQ
का मतलब OR-QuAC और QRCC है।मुखपृष्ठ : https://github.com/google-research/dialog-inpainting#wikidialog-oq
स्रोत कोड :
tfds.text.wiki_dialog.WikiDialog
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
7.04 GiB
डेटासेट का आकार :
36.58 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 11,264,129 |
'validation' | 113,822 |
- फ़ीचर संरचना :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लेखक_संख्या | अनुक्रम (टेंसर) | (कोई भी नहीं,) | int32 | |
रास्ता | मूलपाठ | डोरी | ||
पीआईडी | मूलपाठ | डोरी | ||
वाक्य | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी | |
शीर्षक | मूलपाठ | डोरी | ||
उच्चारणों | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}