- 설명 :
WikiHow는 온라인 WikiHow( http://www.wikihow.com/ ) 지식 기반을 사용하는 새로운 대규모 데이터 세트입니다.
두 가지 기능이 있습니다. - 텍스트: wikihow는 텍스트에 답변합니다. - 제목: 요약으로 굵은 줄.
두 가지 별도 버전이 있습니다. - 전체: 기사로 모든 단락을 연결하고 참조 요약으로 굵은 선으로 구성됩니다. - sep : 각 문단과 요약문으로 구성.
https://github.com/mahnazkoupaee/WikiHow-Dataset에서 "wikihowAll.csv" 및 "wikihowSep.csv"를 다운로드하고 수동 폴더 https://www.tensorflow.org/datasets/api_docs/python/tfds/ 에 배치합니다. download/DownloadConfig 학습/검증/테스트 분할은 작성자가 제공합니다. 짧은 기사(초록 길이 < 0.75 기사 길이)를 제거하고 여분의 쉼표를 정리하기 위해 전처리가 적용됩니다.
소스 코드 :
tfds.summarization.Wikihow
버전 :
-
1.2.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
5.21 MiB
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
파일 링크는 https://github.com/mahnazkoupaee/WikiHow-Dataset 에서 찾을 수 있습니다. wikihowAll.csv 및 wikihowSep.csv를 모두 다운로드하십시오.자동 캐시 ( 문서 ): 아니요
감독 키 (
as_supervised
문서 참조):('text', 'headline')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all(기본 구성)
구성 설명 : 기사는 모든 단락을 연결하여 사용하고 참조 요약은 굵은 선으로 사용하십시오.
데이터 세트 크기 :
531.56 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- 기능 구조 :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
표제 | 텍스트 | 끈 | ||
텍스트 | 텍스트 | 끈 | ||
제목 | 텍스트 | 끈 |
- 예 ( tfds.as_dataframe ):
위키하우/9월
구성 설명 : 각 단락과 해당 요약을 사용합니다.
데이터세트 크기 :
1.07 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 37,800 |
'train' | 1,060,732 |
'validation' | 37,932 |
- 기능 구조 :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
표제 | 텍스트 | 끈 | ||
개요 | 텍스트 | 끈 | ||
섹션 레이블 | 텍스트 | 끈 | ||
텍스트 | 텍스트 | 끈 | ||
제목 | 텍스트 | 끈 |
- 예 ( tfds.as_dataframe ):