- 설명 :
이 말뭉치에는 Reddit 데이터 세트의 사전 처리된 게시물이 포함되어 있습니다. 데이터 세트는 평균 길이가 270단어인 3,848,330개의 게시물로 구성되어 있으며 콘텐츠는 평균 28단어, 요약은 28단어입니다.
기능에는 작성자, 본문, normalizedBody, 콘텐츠, 요약, subreddit, subreddit_id 문자열이 포함됩니다. 내용은 문서로 사용되고 요약은 요약으로 사용됩니다.
소스 코드 :
tfds.datasets.reddit.Builder
버전 :
-
1.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
2.93 GiB
데이터세트 크기 :
18.09 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 3,848,330 |
- 기능 구조 :
FeaturesDict({
'author': string,
'body': string,
'content': string,
'id': string,
'normalizedBody': string,
'subreddit': string,
'subreddit_id': string,
'summary': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
작가 | 텐서 | 끈 | ||
몸 | 텐서 | 끈 | ||
콘텐츠 | 텐서 | 끈 | ||
ID | 텐서 | 끈 | ||
normalizedBody | 텐서 | 끈 | ||
서브레딧 | 텐서 | 끈 | ||
subreddit_id | 텐서 | 끈 | ||
요약 | 텐서 | 끈 |
감독 키 (
as_supervised
문서 참조):('content', 'summary')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{volske-etal-2017-tl,
title = "{TL};{DR}: Mining {R}eddit to Learn Automatic Summarization",
author = {V{\"o}lske, Michael and
Potthast, Martin and
Syed, Shahbaz and
Stein, Benno},
booktitle = "Proceedings of the Workshop on New Frontiers in Summarization",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/W17-4508",
doi = "10.18653/v1/W17-4508",
pages = "59--63",
abstract = "Recent advances in automatic text summarization have used deep neural networks to generate high-quality abstractive summaries, but the performance of these models strongly depends on large amounts of suitable training data. We propose a new method for mining social media for author-provided summaries, taking advantage of the common practice of appending a {``}TL;DR{''} to long posts. A case study using a large Reddit crawl yields the Webis-TLDR-17 dataset, complementing existing corpora primarily from the news genre. Our technique is likely applicable to other social media sites and general web crawls.",
}