booksum

  • Descrizione :

BookSum: una raccolta di set di dati per il riepilogo narrativo di lunga durata

Questa implementazione attualmente supporta solo riepiloghi di libri e capitoli.

GitHub: https://github.com/salesforce/booksum

La cartella manual dovrebbe contenere le seguenti directory:

- `booksum/`
- `all_chapterized_books/`
  • Cache automatica ( documentazione ): Sì (test, convalida), solo quando shuffle_files=False (train)

  • Struttura delle caratteristiche :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
documento Testo corda
riepilogo Testo corda
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/libro (configurazione predefinita)

  • Descrizione della configurazione : riepilogo a livello di libro

  • Dimensione del set di dati: 208.81 MiB

  • Divisioni :

Diviso Esempi
'test' 46
'train' 312
'validation' 45

sommario/capitolo

  • Descrizione della configurazione : riepilogo a livello di capitolo

  • Dimensione del set di dati: 216.71 MiB

  • Divisioni :

Diviso Esempi
'test' 1.083
'train' 6.524
'validation' 891