- Açıklama :
IRC Disentanglement veri seti, Ubuntu IRC kanalından 77.563'ün üzerinde mesaj içerir.
Özellikler mesaj kimliğini, mesaj metnini ve zaman damgasını içerir. Hedef, mevcut mesajın yanıtladığı mesajların listesidir. Her kayıt, bir günlük IRC sohbetinden gelen mesajların bir listesini içerir.
Anasayfa : https://jkk.name/irc-disentanglement
Kaynak kodu :
tfds.datasets.irc_disentanglement.Builder
sürümler :
-
2.0.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
113.53 MiB
Veri kümesi boyutu :
26.59 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Özellik yapısı :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
gün | Sekans | |||
gün/kimlik | Metin | sicim | ||
gün/ebeveynler | Sıra(Metin) | (Hiçbiri,) | sicim | |
gün/metin | Metin | sicim | ||
gün/zaman damgası | Metin | sicim |
Denetlenen anahtarlar (Bkz.
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}