somma_media

  • Descrizione :

Questo set di dati di interviste per i media su larga scala contiene 463.600 trascrizioni con riepiloghi astratti, raccolti dalle trascrizioni delle interviste e descrizioni di panoramica/argomento da NPR e CNN.

Si prega di limitare l'utilizzo di questo set di dati solo a scopo di ricerca.

E per favore cita il nostro documento: MediaSum: un set di dati di interviste sui media su larga scala per il riepilogo del dialogo

Etica

Abbiamo utilizzato solo i dati delle trascrizioni pubblicamente disponibili dalle fonti dei media e aderiamo alle loro linee guida solo a scopo di ricerca.

Poiché i media e gli ospiti possono avere opinioni distorte, le trascrizioni e i riassunti probabilmente le conterranno. Il contenuto delle trascrizioni e dei riassunti riflette solo le opinioni dei media e degli ospiti e deve essere considerato con discrezione.

  • Pagina iniziale : https://github.com/zcgzcgzcg1/MediaSum

  • Codice sorgente : tfds.datasets.media_sum.Builder

  • Versioni :

    • 1.0.0 (impostazione predefinita): versione iniziale.
  • Dimensioni del download : Unknown size

  • Dimensione del set di dati: 4.11 GiB

  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir dovrebbe contenere i file:

    • news_dialogue.json
    • train_val_test_split.json

I file possono essere scaricati ed estratti dalla pagina GitHub del set di dati: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Diviso Esempi
'test' 10.000
'train' 443.596
'val' 10.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
data Testo corda
id Testo corda
programma Testo corda
altoparlante Sequenza(Testo) (Nessuno,) corda
riepilogo Testo corda
URL Testo corda
tt Sequenza(Testo) (Nessuno,) corda
  • Citazione :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}