reddit_disentanglement

  • Açıklama :

Bu veri kümesi, reddit'ten ~3 milyon mesaj içeriyor. Her mesaj meta verilerle etiketlenir. Görev, karşılık gelen dizideki üst mesajının kimliğini tahmin etmektir. Her kayıt, bir diziden gelen mesajların bir listesini içerir. Yinelenen ve bozuk kayıtlar veri kümesinden kaldırılır.

Özellikler:

  • kimlik - mesaj kimliği
  • metin - mesaj metni
  • yazar - mesaj yazarı
  • creator_utc - mesaj UTC zaman damgası
  • link_id - yorumun ilgili olduğu gönderinin kimliği

Hedef:

Bölmek örnekler
  • Özellik yapısı :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
iplik Sıra
konu/yazar Metin sicim
iş parçacığı/created_utc Metin sicim
konu/kimlik Metin sicim
iş parçacığı/bağlantı_kimliği Metin sicim
iş parçacığı/ebeveyn_kimliği Metin sicim
konu/metin Metin sicim
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}