- opis :
SAMSum Corpus zawiera ponad 16 000 dialogów na czacie z ręcznie opatrzonymi komentarzami.
Istnieją dwie funkcje:
- dialog: tekst dialogu.
- streszczenie: napisane przez człowieka podsumowanie dialogu.
id: id przykładu.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://arxiv.org/src/1911.12237v2/anc
Kod źródłowy :
tfds.datasets.samsum.Builder
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
Unknown size
Rozmiar zestawu danych :
10.71 MiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Pobierz https://arxiv.org/src/1911.12237v2/anc/corpus.7z, zdekompresuj i umieść train.json, val.json i test.json w folderze podręcznika.Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 819 |
'train' | 14732 |
'validation' | 818 |
- Struktura funkcji :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
dialog | Tekst | strunowy | ||
ID | Tekst | strunowy | ||
Podsumowanie | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('dialogue', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}