- Descrizione :
Questo set di dati di interviste per i media su larga scala contiene 463.600 trascrizioni con riepiloghi astratti, raccolti dalle trascrizioni delle interviste e descrizioni di panoramica/argomento da NPR e CNN.
Si prega di limitare l'utilizzo di questo set di dati solo a scopo di ricerca.
E per favore cita il nostro documento: MediaSum: un set di dati di interviste sui media su larga scala per il riepilogo del dialogo
Etica
Abbiamo utilizzato solo i dati delle trascrizioni pubblicamente disponibili dalle fonti dei media e aderiamo alle loro linee guida solo a scopo di ricerca.
Poiché i media e gli ospiti possono avere opinioni distorte, le trascrizioni e i riassunti probabilmente le conterranno. Il contenuto delle trascrizioni e dei riassunti riflette solo le opinioni dei media e degli ospiti e deve essere considerato con discrezione.
Pagina iniziale : https://github.com/zcgzcgzcg1/MediaSum
Codice sorgente :
tfds.datasets.media_sum.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Dimensione del set di dati:
4.11 GiB
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
manual_dir dovrebbe contenere i file:- news_dialogue.json
- train_val_test_split.json
I file possono essere scaricati ed estratti dalla pagina GitHub del set di dati: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 10.000 |
'train' | 443.596 |
'val' | 10.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
data | Testo | corda | ||
id | Testo | corda | ||
programma | Testo | corda | ||
altoparlante | Sequenza(Testo) | (Nessuno,) | corda | |
riepilogo | Testo | corda | ||
URL | Testo | corda | ||
tt | Sequenza(Testo) | (Nessuno,) | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('utt', 'summary')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}