- Descrizione :
Set di dati Reddit, dove TIFU denota il nome di subbreddit /r/tifu. Come definito nella pubblicazione, lo stile "breve" usa il titolo come sommario e "lungo" usa tldr come sommario.
Le caratteristiche includono:
- documento: pubblica il testo senza tldr.
- tldr: linea tldr.
- titolo: titolo tagliato senza tldr.
- up: voti positivi.
- punteggio: punteggio.
- num_comments: numero di commenti.
upvote_ratio: percentuale di voti positivi.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/ctr4si/MMN
Codice sorgente :
tfds.datasets.reddit_tifu.Builder
Versioni :
-
1.1.0
: Rimuovi il documento vuoto e le stringhe di riepilogo. -
1.1.1
: Aggiungi le divisioni train, dev e test (80/10/10) utilizzate in PEGASUS ( https://arxiv.org/abs/1912.08777 ) in una configurazione separata. Questi sono stati creati in modo casuale utilizzando la funzione tfds split e vengono rilasciati per garantire che i risultati su Reddit Tifu Long siano riproducibili e confrontabili. Aggiungi ancheid
ai datapoint. -
1.1.2
(predefinito): Corretti gli split caricati.
-
Struttura delle caratteristiche :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
documenti | Testo | corda | ||
id | Testo | corda | ||
num_commenti | Tensore | galleggiante32 | ||
punto | Tensore | galleggiante32 | ||
titolo | Testo | corda | ||
tldr | Testo | corda | ||
UPS | Tensore | galleggiante32 | ||
upvote_ratio | Tensore | galleggiante32 |
Figura ( tfds.show_examples ): non supportato.
Citazione :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (configurazione predefinita)
Descrizione della configurazione : utilizzo del titolo come riepilogo.
Dimensione del download :
639.54 MiB
Dimensione del set di dati:
141.46 MiB
Cache automatica ( documentazione ): solo quando
shuffle_files=False
(treno)Divisioni :
Diviso | Esempi |
---|---|
'train' | 79.740 |
Chiavi supervisionate (vedi
as_supervised
doc ):('documents', 'title')
Esempi ( tfds.as_dataframe ):
reddit_tifu/long
Descrizione della configurazione : utilizzo di TLDR come riepilogo.
Dimensione del download :
639.54 MiB
Dimensione del set di dati:
93.10 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 42.139 |
Chiavi supervisionate (vedi
as_supervised
doc ):('documents', 'tldr')
Esempi ( tfds.as_dataframe ):
reddit_tifu/long_split
Descrizione della configurazione : utilizzo di TLDR come riepilogo e suddivisioni treno/test/sviluppo di ritorno.
Dimensione del download :
639.94 MiB
Dimensione del set di dati:
93.10 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 4.214 |
'train' | 33.711 |
'validation' | 4.214 |
Chiavi supervisionate (vedi
as_supervised
doc ):('documents', 'tldr')
Esempi ( tfds.as_dataframe ):