reddit_tifu

  • Açıklama :

TIFU'nun subbreddit /r/tifu adını gösterdiği Reddit veri kümesi. Yayında tanımlandığı gibi, "kısa" stili özet olarak başlığı kullanır ve "uzun", özet olarak tldr'yi kullanır.

Özellikler şunları içerir:

  • belge: tldr olmadan metin gönderin.
  • tldr: tldr satırı.
  • başlık: tldr olmadan kırpılmış başlık.
  • ups: olumlu oylar.
  • puan: puan.
  • num_comments: yorum sayısı.
  • upvote_ratio: olumlu oy oranı.

  • Ek Belgeler : Belgeleri Keşfedin

  • Anasayfa : https://github.com/ctr4si/MMN

  • Kaynak kodu : tfds.datasets.reddit_tifu.Builder

  • sürümler :

    • 1.1.0 : Boş belge ve özet dizilerini kaldırın.
    • 1.1.1 : PEGASUS'ta ( https://arxiv.org/abs/1912.08777 ) kullanılan train, dev ve test (80/10/10) split'lerini ayrı bir yapılandırmada ekleyin. Bunlar, tfds bölme işlevi kullanılarak rastgele oluşturuldu ve Reddit Tifu Long'daki sonuçların tekrarlanabilir ve karşılaştırılabilir olmasını sağlamak için yayınlanıyor.Ayrıca veri noktalarına id ekleyin.
    • 1.1.2 (varsayılan): Düzeltilmiş bölmeler yüklendi.
  • Özellik yapısı :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
belgeler Metin sicim
İD Metin sicim
yorum sayısı tensör şamandıra32
Puan tensör şamandıra32
Başlık Metin sicim
tldr Metin sicim
Güç kaynağı tensör şamandıra32
artı oy oranı tensör şamandıra32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Özet olarak başlık kullanılıyor.

  • İndirme boyutu : 639.54 MiB

  • Veri kümesi boyutu : 141.46 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False (tren) olduğunda

  • bölmeler :

Bölmek örnekler
'train' 79.740

reddit_tifu/uzun

  • Yapılandırma açıklaması : Özet olarak TLDR kullanılıyor.

  • İndirme boyutu : 639.54 MiB

  • Veri kümesi boyutu : 93.10 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 42.139

reddit_tifu/uzun_split

  • Yapılandırma açıklaması : TLDR'yi özet olarak kullanma ve tren/test/geliştirme bölümlerine dönüş.

  • İndirme boyutu : 639.94 MiB

  • Veri kümesi boyutu : 93.10 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 4.214
'train' 33.711
'validation' 4.214