- Açıklama :
Bu veri kümesi, reddit'ten ~3 milyon mesaj içeriyor. Her mesaj meta verilerle etiketlenir. Görev, karşılık gelen dizideki üst mesajının kimliğini tahmin etmektir. Her kayıt, bir diziden gelen mesajların bir listesini içerir. Yinelenen ve bozuk kayıtlar veri kümesinden kaldırılır.
Özellikler:
- kimlik - mesaj kimliği
- metin - mesaj metni
- yazar - mesaj yazarı
- creator_utc - mesaj UTC zaman damgası
- link_id - yorumun ilgili olduğu gönderinin kimliği
Hedef:
parent_id - geçerli ileti dizisindeki ana iletinin kimliği
Ana Sayfa : https://github.com/henghuiz/MaskedHierarchicalTransformer
Kaynak kodu :
tfds.datasets.reddit_disentanglement.Builder
sürümler :
-
2.0.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
https://github.com/henghuiz/MaskedHierarchicalTransformer'ı indirin, raw_data.zip dosyasını açın ve reddit api kimlik bilgilerinizle create_dataset.py dosyasını çalıştırın. Ardından, çıktı dizininden train.csv, val.csv ve test.csv'yi manual klasörüne koyun.Otomatik önbelleğe alınmış ( belgeler ): Bilinmiyor
bölmeler :
Bölmek | örnekler |
---|
- Özellik yapısı :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
iplik | Sıra | |||
konu/yazar | Metin | sicim | ||
iş parçacığı/created_utc | Metin | sicim | ||
konu/kimlik | Metin | sicim | ||
iş parçacığı/bağlantı_kimliği | Metin | sicim | ||
iş parçacığı/ebeveyn_kimliği | Metin | sicim | ||
konu/metin | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ): Eksik.
Alıntı :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}