- Описание :
WikiHow — это новый крупномасштабный набор данных, использующий онлайновую базу знаний WikiHow ( http://www.wikihow.com/ ).
Есть две функции: - текст: wikihow отвечает на тексты. - заголовок: жирные линии в качестве резюме.
Есть две отдельные версии: - all: состоит из объединения всех абзацев в виде статей и выделенных жирным шрифтом строк в виде кратких ссылок. - sep: состоит из каждого абзаца и его резюме.
Загрузите «wikihowAll.csv» и «wikihowSep.csv» с https://github.com/mahnazkoupaee/WikiHow-Dataset и поместите их в папку вручную https://www.tensorflow.org/datasets/api_docs/python/tfds/ Разделы download/DownloadConfig Train/validation/test предоставлены авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации < 0,75 длины статьи) и очистки лишних запятых.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/mahnazkoupaee/WikiHow-Dataset
Исходный код :
tfds.summarization.Wikihow
Версии :
-
1.2.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
5.21 MiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Ссылки на файлы можно найти на https://github.com/mahnazkoupaee/WikiHow-Dataset Пожалуйста, загрузите файлы wikihowAll.csv и wikihowSep.csv.Автоматическое кэширование ( документация ): Нет
Контролируемые ключи (см.
as_supervised
doc ):('text', 'headline')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (конфигурация по умолчанию)
Описание конфигурации : используйте объединение всех абзацев в качестве статей и выделенных жирным шрифтом строк в качестве справочных сводок.
Размер набора данных :
531.56 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 5 577 |
'train' | 157 252 |
'validation' | 5 599 |
- Структура функции :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
Заголовок | Текст | нить | ||
текст | Текст | нить | ||
заглавие | Текст | нить |
- Примеры ( tfds.as_dataframe ):
wikihow/сен
Описание конфигурации : используйте каждый абзац и его краткое содержание.
Размер набора данных :
1.07 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 37 800 |
'train' | 1 060 732 |
'validation' | 37 932 |
- Структура функции :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
Заголовок | Текст | нить | ||
обзор | Текст | нить | ||
разделЭтикетка | Текст | нить | ||
текст | Текст | нить | ||
заглавие | Текст | нить |
- Примеры ( tfds.as_dataframe ):