somma_media

Descrizione :

Questo set di dati di interviste per i media su larga scala contiene 463.600 trascrizioni con riepiloghi astratti, raccolti dalle trascrizioni delle interviste e descrizioni di panoramica/argomento da NPR e CNN.

Si prega di limitare l'utilizzo di questo set di dati solo a scopo di ricerca.

E per favore cita il nostro documento: MediaSum: un set di dati di interviste sui media su larga scala per il riepilogo del dialogo

Etica

Abbiamo utilizzato solo i dati delle trascrizioni pubblicamente disponibili dalle fonti dei media e aderiamo alle loro linee guida solo a scopo di ricerca.

Poiché i media e gli ospiti possono avere opinioni distorte, le trascrizioni e i riassunti probabilmente le conterranno. Il contenuto delle trascrizioni e dei riassunti riflette solo le opinioni dei media e degli ospiti e deve essere considerato con discrezione.

Pagina iniziale : https://github.com/zcgzcgzcg1/MediaSum
Codice sorgente : tfds.datasets.media_sum.Builder
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Dimensioni del download : Unknown size
Dimensione del set di dati: 4.11 GiB
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
manual_dir dovrebbe contenere i file:
- news_dialogue.json
- train_val_test_split.json

I file possono essere scaricati ed estratti dalla pagina GitHub del set di dati: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'test'`	10.000
`'train'`	443.596
`'val'`	10.000

Struttura delle caratteristiche :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
data	Testo		corda
id	Testo		corda
programma	Testo		corda
altoparlante	Sequenza(Testo)	(Nessuno,)	corda
riepilogo	Testo		corda
URL	Testo		corda
tt	Sequenza(Testo)	(Nessuno,)	corda

Chiavi supervisionate (vedi as_supervised doc ): ('utt', 'summary')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):

Citazione :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

somma_media Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Etica

somma_media