- Açıklama :
Bu büyük ölçekli medya röportajı veri seti, NPR ve CNN'den röportaj transkriptleri ve genel bakış / konu açıklamalarından toplanan özet özetlerle birlikte 463.6K transkript içerir.
Lütfen bu veri kümesini kullanımınızı yalnızca araştırma amacıyla sınırlayın.
Ve lütfen şu makalemizden alıntı yapın: MediaSum: Diyalog Özeti için Büyük Ölçekli Bir Medya Röportajı Veri Kümesi
etik
Medya kaynaklarından yalnızca halka açık transkript verilerini kullandık ve yalnızca araştırma amaçlı kılavuzlarına bağlı kaldık.
Medya ve konuklar önyargılı görüşlere sahip olabileceğinden, transkriptler ve özetler muhtemelen bunları içerecektir. Transkriptlerin ve özetlerin içeriği yalnızca medyanın ve konukların görüşlerini yansıtır ve ihtiyatla incelenmelidir.
Anasayfa : https://github.com/zcgzcgzcg1/MediaSum
Kaynak kodu :
tfds.datasets.media_sum.Builder
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
4.11 GiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
manual_dir şu dosyaları içermelidir:- news_dialogue.json
- train_val_test_split.json
Dosyalar, veri kümesinin GitHub sayfasından indirilebilir ve çıkarılabilir: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 10.000 |
'train' | 443.596 |
'val' | 10.000 |
- Özellik yapısı :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
tarih | Metin | sicim | ||
İD | Metin | sicim | ||
programı | Metin | sicim | ||
konuşmacı | Sıra(Metin) | (Hiçbiri,) | sicim | |
özet | Metin | sicim | ||
url | Metin | sicim | ||
utt | Sıra(Metin) | (Hiçbiri,) | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('utt', 'summary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}