- 설명 :
이 대규모 미디어 인터뷰 데이터 세트에는 NPR 및 CNN의 인터뷰 기록 및 개요/주제 설명에서 수집된 추상적 요약이 있는 463.6K 기록이 포함되어 있습니다.
이 데이터 세트의 사용을 연구 목적으로만 제한하십시오.
그리고 저희 논문을 인용해 주십시오: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization
윤리학
우리는 미디어 소스에서 공개적으로 사용 가능한 대본 데이터만 사용했으며 연구 목적으로만 해당 지침을 준수합니다.
미디어와 게스트는 편향된 견해를 가질 수 있으므로 녹취록과 요약에 그러한 견해가 포함될 가능성이 높습니다. 녹취록 및 요약 내용은 미디어 및 게스트의 견해를 반영할 뿐이므로 신중하게 검토해야 합니다.
소스 코드 :
tfds.datasets.media_sum.Builder
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
Unknown size
데이터세트 크기 :
4.11 GiB
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
manual_dir에는 다음 파일이 포함되어야 합니다.- news_dialogue.json
- train_val_test_split.json
파일은 데이터 세트의 GitHub 페이지( https://github.com/zcgzcgzcg1/MediaSum/tree/main/data )에서 다운로드하고 추출할 수 있습니다.
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 10,000 |
'train' | 443,596 |
'val' | 10,000 |
- 기능 구조 :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
날짜 | 텍스트 | 끈 | ||
ID | 텍스트 | 끈 | ||
프로그램 | 텍스트 | 끈 | ||
스피커 | 시퀀스(텍스트) | (없음,) | 끈 | |
요약 | 텍스트 | 끈 | ||
URL | 텍스트 | 끈 | ||
우트 | 시퀀스(텍스트) | (없음,) | 끈 |
감독 키 (
as_supervised
문서 참조):('utt', 'summary')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}