- Açıklama :
SAMSum Corpus, manuel olarak açıklamalı özetlerle birlikte 16 binden fazla sohbet diyaloğu içerir.
İki özellik vardır:
- diyalog: diyalog metni.
- özet: diyaloğun insan yazılı özeti.
id: bir örneğin kimliği.
Anasayfa : https://arxiv.org/src/1911.12237v2/anc
Kaynak kodu :
tfds.datasets.samsum.Builder
sürümler :
-
1.0.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
10.71 MiB
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
https://arxiv.org/src/1911.12237v2/anc/corpus.7z dosyasını indirin, sıkıştırılmış dosyayı açın ve train.json, val.json ve test.json dosyalarını kılavuz klasörüne yerleştirin.Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 819 |
'train' | 14.732 |
'validation' | 818 |
- Özellik yapısı :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
diyalog | Metin | sicim | ||
İD | Metin | sicim | ||
özet | Metin | sicim |
Denetlenen tuşlar (Bkz
as_supervised
doc ):('dialogue', 'summary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}