- Описание :
Набор данных SummScreen Summarization, не анонимная, не токенизированная версия.
Разделения и фильтрация обучения/оценки/тестирования основаны на окончательном токенизированном наборе данных, но предоставленные стенограммы и резюме основаны на немаркированном тексте.
Есть две особенности:
- Стенограмма: полные стенограммы эпизодов, каждая строка диалога разделена новой строкой.
recap: Резюме или краткое изложение эпизодов.
Домашняя страница : https://github.com/mingdachen/SummScreen
Исходный код :
tfds.datasets.summscreen.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
841.27 MiB
Контролируемые ключи (см.
as_supervised
doc ):('transcript', 'recap')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (конфигурация по умолчанию)
Описание конфига: ForeverDreaming
Размер набора данных :
132.99 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 337 |
'train' | 3673 |
'validation' | 338 |
- Структура функции :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
эпизод_номер | Текст | нить | ||
эпизод_название | Текст | нить | ||
резюмировать | Текст | нить | ||
показать заголовок | Текст | нить | ||
стенограмма | Текст | нить | ||
расшифровка_автор | Текст | нить |
- Примеры ( tfds.as_dataframe ):
суммарный экран/тмс
Описание конфигурации : TVMegaSite
Размер набора данных :
592.53 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1793 |
'train' | 18 915 |
'validation' | 1795 |
- Структура функции :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
эпизод_резюме | Текст | нить | ||
резюмировать | Текст | нить | ||
recap_author | Текст | нить | ||
показать заголовок | Текст | нить | ||
стенограмма | Текст | нить | ||
расшифровка_автор | Тензор | (Никто,) | нить |
- Примеры ( tfds.as_dataframe ):