- Descrizione :
WikiHow è un nuovo set di dati su larga scala che utilizza la base di conoscenza online WikiHow ( http://www.wikihow.com/ ).
Ci sono due caratteristiche: - testo: wikihow risponde ai testi. - titolo: righe in grassetto come riepilogo.
Ne esistono due versioni distinte: - tutto: costituito dalla concatenazione di tutti i paragrafi come gli articoli e le righe in grassetto come i riassunti di riferimento. - sep: composto da ciascun paragrafo e dal suo sommario.
Scarica "wikihowAll.csv" e "wikihowSep.csv" da https://github.com/mahnazkoupaee/WikiHow-Dataset e inseriscili nella cartella manuale https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validation/test split sono forniti dagli autori. La preelaborazione viene applicata per rimuovere articoli brevi (lunghezza astratta <0,75 lunghezza articolo) e ripulire le virgole extra.
Documentazione aggiuntiva : Esplora documenti con codice
Codice sorgente :
tfds.summarization.Wikihow
Versioni :
-
1.2.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
5.21 MiB
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
I collegamenti ai file sono disponibili su https://github.com/mahnazkoupaee/WikiHow-Dataset Scarica sia wikihowAll.csv che wikihowSep.csv.Cache automatica ( documentazione ): No
Chiavi supervisionate (vedi
as_supervised
doc ):('text', 'headline')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (configurazione predefinita)
Descrizione della configurazione : utilizza la concatenazione di tutti i paragrafi come articoli e le righe in grassetto come riepiloghi di riferimento
Dimensione del set di dati:
531.56 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 5.577 |
'train' | 157,252 |
'validation' | 5.599 |
- Struttura delle caratteristiche :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
titolo | Testo | corda | ||
testo | Testo | corda | ||
titolo | Testo | corda |
- Esempi ( tfds.as_dataframe ):
wikihow/set
Descrizione della configurazione : usa ogni paragrafo e il suo sommario.
Dimensione del set di dati:
1.07 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 37.800 |
'train' | 1.060.732 |
'validation' | 37.932 |
- Struttura delle caratteristiche :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
titolo | Testo | corda | ||
panoramica | Testo | corda | ||
sectionLabel | Testo | corda | ||
testo | Testo | corda | ||
titolo | Testo | corda |
- Esempi ( tfds.as_dataframe ):