- Descrição :
SAMSum Corpus contém mais de 16 mil diálogos de bate-papo com resumos anotados manualmente.
Existem duas características:
- diálogo: texto do diálogo.
- resumo: resumo escrito humano do diálogo.
id: id de um exemplo.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://arxiv.org/src/1911.12237v2/anc
Código -fonte:
tfds.datasets.samsum.Builder
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Tamanho do download :
Unknown size
Tamanho do conjunto de dados :
10.71 MiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Baixe https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descompacte e coloque train.json, val.json e test.json na pasta manual.Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 819 |
'train' | 14.732 |
'validation' | 818 |
- Estrutura de recursos :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Funcionalidade | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
diálogo | Texto | fragmento | ||
Eu iria | Texto | fragmento | ||
resumo | Texto | fragmento |
Chaves supervisionadas (Veja
as_supervised
doc ):('dialogue', 'summary')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}