reddit_tifu

  • 설명 :

Reddit 데이터 세트, 여기서 TIFU는 subbreddit /r/tifu의 이름을 나타냅니다. 간행물에 정의된 대로 "짧은" 스타일은 제목을 요약으로 사용하고 "긴" 스타일은 tldr을 요약으로 사용합니다.

기능에는 다음이 포함됩니다.

  • 문서: tldr 없이 텍스트를 게시합니다.
  • tldr: tldr 라인.
  • 제목: tldr 없이 잘린 제목.
  • ups: upvotes.
  • 점수: 점수.
  • num_comments: 댓글 수.
  • upvote_ratio: 찬성 비율.

  • 추가 문서 : 코드가 있는 논문에서 탐색

  • 홈페이지 : https://github.com/ctr4si/MMN

  • 소스 코드 : tfds.datasets.reddit_tifu.Builder

  • 버전 :

    • 1.1.0 : 빈 문서 및 요약 문자열을 제거합니다.
    • 1.1.1 : PEGASUS( https://arxiv.org/abs/1912.08777 )에서 사용되는 기차, 개발 및 테스트(80/10/10) 분할을 별도의 구성으로 추가합니다. 이들은 tfds 분할 기능을 사용하여 무작위로 생성되었으며 Reddit Tifu Long의 결과가 재현 가능하고 비교 가능하도록 릴리스되었습니다. 또한 데이터 포인트에 id 를 추가합니다.
    • 1.1.2 (기본값): 수정된 분할이 업로드되었습니다.
  • 기능 구조 :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
서류 텍스트
ID 텍스트
num_comments 텐서 float32
점수 텐서 float32
제목 텍스트
tldr 텍스트
기복 텐서 float32
upvote_ratio 텐서 float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short(기본 구성)

  • 구성 설명 : 제목을 요약으로 사용.

  • 다운로드 크기 : 639.54 MiB

  • 데이터 세트 크기 : 141.46 MiB

  • 자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만

  • 분할 :

나뉘다
'train' 79,740

reddit_tifu/긴

  • 구성 설명 : 요약으로 TLDR 사용.

  • 다운로드 크기 : 639.54 MiB

  • 데이터 세트 크기 : 93.10 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 42,139

reddit_tifu/long_split

  • 구성 설명 : TLDR을 요약으로 사용하고 학습/테스트/개발 분할을 반환합니다.

  • 다운로드 크기 : 639.94 MiB

  • 데이터 세트 크기 : 93.10 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 4,214
'train' 33,711
'validation' 4,214