layar akhir

  • Deskripsi :

Kumpulan data SummScreen Summarization, versi non-anonim, non-token.

Pemisahan dan pemfilteran kereta/val/tes didasarkan pada kumpulan data akhir yang diberi token, tetapi transkrip dan rekap yang disediakan didasarkan pada teks yang tidak diberi token.

Ada dua fitur:

@article{DBLP:journals/corr/abs-2104-07091,
  author    
= {Mingda Chen and
               
Zewei Chu and
               
Sam Wiseman and
               
Kevin Gimpel},
  title    
= {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal  
= {CoRR},
  volume    
= {abs/2104.07091},
  year      
= {2021},
  url      
= {https://arxiv.org/abs/2104.07091},
  archivePrefix
= {arXiv},
  eprint    
= {2104.07091},
  timestamp
= {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    
= {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource
= {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (konfigurasi default)

  • Deskripsi konfigurasi : ForeverDreaming

  • Ukuran dataset : 132.99 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 337
'train' 3.673
'validation' 338
  • Struktur fitur :
FeaturesDict({
   
'episode_number': Text(shape=(), dtype=string),
   
'episode_title': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
nomor_episode Teks rangkaian
episode_title Teks rangkaian
rekap Teks rangkaian
tunjukkan Judul Teks rangkaian
salinan Teks rangkaian
transcript_author Teks rangkaian

summscreen/tms

  • Deskripsi konfigurasi : TVMegaSite

  • Ukuran dataset : 592.53 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'test' 1.793
'train' 18.915
'validation' 1.795
  • Struktur fitur :
FeaturesDict({
   
'episode_summary': Text(shape=(), dtype=string),
   
'recap': Text(shape=(), dtype=string),
   
'recap_author': Text(shape=(), dtype=string),
   
'show_title': Text(shape=(), dtype=string),
   
'transcript': Text(shape=(), dtype=string),
   
'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_summary Teks rangkaian
rekap Teks rangkaian
rekap_penulis Teks rangkaian
tunjukkan Judul Teks rangkaian
salinan Teks rangkaian
transcript_author Tensor (Tidak ada,) rangkaian