media_sum

설명 :

이 대규모 미디어 인터뷰 데이터 세트에는 NPR 및 CNN의 인터뷰 기록 및 개요/주제 설명에서 수집된 추상적 요약이 있는 463.6K 기록이 포함되어 있습니다.

이 데이터 세트의 사용을 연구 목적으로만 제한하십시오.

그리고 저희 논문을 인용해 주십시오: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization

윤리학

우리는 미디어 소스에서 공개적으로 사용 가능한 대본 데이터만 사용했으며 연구 목적으로만 해당 지침을 준수합니다.

미디어와 게스트는 편향된 견해를 가질 수 있으므로 녹취록과 요약에 그러한 견해가 포함될 가능성이 높습니다. 녹취록 및 요약 내용은 미디어 및 게스트의 견해를 반영할 뿐이므로 신중하게 검토해야 합니다.

홈페이지 : https://github.com/zcgzcgzcg1/MediaSum
소스 코드 : tfds.datasets.media_sum.Builder
버전 :
- 1.0.0 (기본값): 최초 릴리스.
다운로드 크기 : Unknown size
데이터세트 크기 : 4.11 GiB
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
manual_dir에는 다음 파일이 포함되어야 합니다.
- news_dialogue.json
- train_val_test_split.json

파일은 데이터 세트의 GitHub 페이지( https://github.com/zcgzcgzcg1/MediaSum/tree/main/data )에서 다운로드하고 추출할 수 있습니다.

자동 캐시 ( 문서 ): 아니요
분할 :

나뉘다	예
`'test'`	10,000
`'train'`	443,596
`'val'`	10,000

기능 구조 :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

기능 문서 :

특징	수업	모양	D타입
	풍모Dict
날짜	텍스트		끈
ID	텍스트		끈
프로그램	텍스트		끈
스피커	시퀀스(텍스트)	(없음,)	끈
요약	텍스트		끈
URL	텍스트		끈
우트	시퀀스(텍스트)	(없음,)	끈

감독 키 ( as_supervised 문서 참조): ('utt', 'summary')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}