reddit_tifu

  • Descrizione :

Set di dati Reddit, dove TIFU denota il nome di subbreddit /r/tifu. Come definito nella pubblicazione, lo stile "breve" usa il titolo come sommario e "lungo" usa tldr come sommario.

Le caratteristiche includono:

  • documento: pubblica il testo senza tldr.
  • tldr: linea tldr.
  • titolo: titolo tagliato senza tldr.
  • up: voti positivi.
  • punteggio: punteggio.
  • num_comments: numero di commenti.
  • upvote_ratio: percentuale di voti positivi.

  • Documentazione aggiuntiva : Esplora documenti con codice

  • Pagina iniziale : https://github.com/ctr4si/MMN

  • Codice sorgente : tfds.datasets.reddit_tifu.Builder

  • Versioni :

    • 1.1.0 : Rimuovi il documento vuoto e le stringhe di riepilogo.
    • 1.1.1 : Aggiungi le divisioni train, dev e test (80/10/10) utilizzate in PEGASUS ( https://arxiv.org/abs/1912.08777 ) in una configurazione separata. Questi sono stati creati in modo casuale utilizzando la funzione tfds split e vengono rilasciati per garantire che i risultati su Reddit Tifu Long siano riproducibili e confrontabili. Aggiungi anche id ai datapoint.
    • 1.1.2 (predefinito): Corretti gli split caricati.
  • Struttura delle caratteristiche :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
documenti Testo corda
id Testo corda
num_commenti Tensore galleggiante32
punto Tensore galleggiante32
titolo Testo corda
tldr Testo corda
UPS Tensore galleggiante32
upvote_ratio Tensore galleggiante32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (configurazione predefinita)

  • Descrizione della configurazione : utilizzo del titolo come riepilogo.

  • Dimensione del download : 639.54 MiB

  • Dimensione del set di dati: 141.46 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 79.740

reddit_tifu/long

  • Descrizione della configurazione : utilizzo di TLDR come riepilogo.

  • Dimensione del download : 639.54 MiB

  • Dimensione del set di dati: 93.10 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 42.139

reddit_tifu/long_split

  • Descrizione della configurazione : utilizzo di TLDR come riepilogo e suddivisioni treno/test/sviluppo di ritorno.

  • Dimensione del download : 639.94 MiB

  • Dimensione del set di dati: 93.10 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 4.214
'train' 33.711
'validation' 4.214