- 설명 :
NEWSROOM은 요약 시스템을 교육하고 평가하기 위한 대규모 데이터 세트입니다. 여기에는 38개 주요 간행물의 뉴스룸에서 저자와 편집자가 작성한 130만 개의 기사와 요약이 포함되어 있습니다.
데이터 세트 기능에는 다음이 포함됩니다.
- 텍스트: 뉴스 텍스트를 입력합니다.
- 요약: 뉴스 요약.
추가 기능:
- 제목: 뉴스 제목.
- url: 뉴스의 URL.
- 날짜: 기사의 날짜.
- 밀도: 추출 밀도.
- 적용 범위: 추출 적용 범위.
- 압축: 압축 비율.
- density_bin: 낮음, 중간, 높음.
- coverage_bin: 추출, 추상.
- compression_bin: 낮음, 중간, 높음.
이 데이터 세트는 요청 시 다운로드할 수 있습니다. 모든 콘텐츠 "train.jsonl, dev.jsonl, test.jsonl"을 tfds 폴더에 압축 해제합니다.
홈페이지 : https://summari.es
버전 :
-
1.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
Unknown size
데이터세트 크기 :
5.13 GiB
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
https://summari.es/download/ 에서 데이터 세트를 다운로드해야 합니다. 웹 페이지에 등록이 필요합니다. 다운로드 후 dev.jsonl, test.jsonl 및 train.jsonl 파일을 manual_dir에 넣으십시오.자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- 기능 구조 :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
압축 | 텐서 | float32 | ||
압축_빈 | 텍스트 | 끈 | ||
적용 범위 | 텐서 | float32 | ||
coverage_bin | 텍스트 | 끈 | ||
날짜 | 텍스트 | 끈 | ||
밀도 | 텐서 | float32 | ||
밀도_빈 | 텍스트 | 끈 | ||
요약 | 텍스트 | 끈 | ||
텍스트 | 텍스트 | 끈 | ||
제목 | 텍스트 | 끈 | ||
URL | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('text', 'summary')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}