- Açıklama :
BookSum: Uzun Biçimli Anlatım Özeti için Veri Kümeleri Koleksiyonu
Bu uygulama şu anda yalnızca kitap ve bölüm özetlerini desteklemektedir.
GitHub: https://github.com/salesforce/booksum
Ana sayfa : https://github.com/salesforce/booksum
Kaynak kodu :
tfds.datasets.booksum.Builder
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine
download_config.manual_dir
gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
):1) https://github.com/salesforce/booksum adresine gidin ve 1-3 arasındaki adımları çalıştırın.
booksum
git projesinin tamamını manual klasörüne yerleştirin. 2) Bölümlere ayrılmış kitapları https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip adresinden indirin ve kılavuz klasörüne açın.
Kılavuz klasörü aşağıdaki dizinleri içermelidir:
- `booksum/`
- `all_chapterized_books/`
Otomatik önbelleğe alınmış ( belgeler ): Evet (test, doğrulama), Yalnızca
shuffle_files=False
(tren) olduğundaÖzellik yapısı :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
belge | Metin | sicim | ||
özet | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('document', 'summary')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Booksum/book (varsayılan yapılandırma)
Yapılandırma açıklaması : Kitap düzeyinde özetleme
Veri kümesi boyutu :
208.81 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Örnekler ( tfds.as_dataframe ):
kitap/bölüm
Yapılandırma açıklaması : bölüm düzeyinde özetleme
Veri kümesi boyutu :
216.71 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 1.083 |
'train' | 6.524 |
'validation' | 891 |
- Örnekler ( tfds.as_dataframe ):