- 설명 :
Reddit 데이터 세트, 여기서 TIFU는 subbreddit /r/tifu의 이름을 나타냅니다. 간행물에 정의된 대로 "짧은" 스타일은 제목을 요약으로 사용하고 "긴" 스타일은 tldr을 요약으로 사용합니다.
기능에는 다음이 포함됩니다.
- 문서: tldr 없이 텍스트를 게시합니다.
- tldr: tldr 라인.
- 제목: tldr 없이 잘린 제목.
- ups: upvotes.
- 점수: 점수.
- num_comments: 댓글 수.
upvote_ratio: 찬성 비율.
버전 :
-
1.1.0
: 빈 문서 및 요약 문자열을 제거합니다. -
1.1.1
: PEGASUS( https://arxiv.org/abs/1912.08777 )에서 사용되는 기차, 개발 및 테스트(80/10/10) 분할을 별도의 구성으로 추가합니다. 이들은 tfds 분할 기능을 사용하여 무작위로 생성되었으며 Reddit Tifu Long의 결과가 재현 가능하고 비교 가능하도록 릴리스되었습니다. 또한 데이터 포인트에id
를 추가합니다. -
1.1.2
(기본값): 수정된 분할이 업로드되었습니다.
-
기능 구조 :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
서류 | 텍스트 | 끈 | ||
ID | 텍스트 | 끈 | ||
num_comments | 텐서 | float32 | ||
점수 | 텐서 | float32 | ||
제목 | 텍스트 | 끈 | ||
tldr | 텍스트 | 끈 | ||
기복 | 텐서 | float32 | ||
upvote_ratio | 텐서 | float32 |
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short(기본 구성)
구성 설명 : 제목을 요약으로 사용.
다운로드 크기 :
639.54 MiB
데이터 세트 크기 :
141.46 MiB
자동 캐시 됨( 문서 ):
shuffle_files=False
(트레인)인 경우에만분할 :
나뉘다 | 예 |
---|---|
'train' | 79,740 |
감독된 키 (
as_supervised
문서 참조):('documents', 'title')
예 ( tfds.as_dataframe ):
reddit_tifu/긴
구성 설명 : 요약으로 TLDR 사용.
다운로드 크기 :
639.54 MiB
데이터 세트 크기 :
93.10 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 42,139 |
감독 키 (
as_supervised
문서 참조):('documents', 'tldr')
예 ( tfds.as_dataframe ):
reddit_tifu/long_split
구성 설명 : TLDR을 요약으로 사용하고 학습/테스트/개발 분할을 반환합니다.
다운로드 크기 :
639.94 MiB
데이터 세트 크기 :
93.10 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
감독 키 (
as_supervised
문서 참조):('documents', 'tldr')
예 ( tfds.as_dataframe ):