media_sum

  • 설명 :

이 대규모 미디어 인터뷰 데이터 세트에는 NPR 및 CNN의 인터뷰 기록 및 개요/주제 설명에서 수집된 추상적 요약이 있는 463.6K 기록이 포함되어 있습니다.

이 데이터 세트의 사용을 연구 목적으로만 제한하십시오.

그리고 저희 논문을 인용해 주십시오: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization

윤리학

우리는 미디어 소스에서 공개적으로 사용 가능한 대본 데이터만 사용했으며 연구 목적으로만 해당 지침을 준수합니다.

미디어와 게스트는 편향된 견해를 가질 수 있으므로 녹취록과 요약에 그러한 견해가 포함될 가능성이 높습니다. 녹취록 및 요약 내용은 미디어 및 게스트의 견해를 반영할 뿐이므로 신중하게 검토해야 합니다.

  • 홈페이지 : https://github.com/zcgzcgzcg1/MediaSum

  • 소스 코드 : tfds.datasets.media_sum.Builder

  • 버전 :

    • 1.0.0 (기본값): 최초 릴리스.
  • 다운로드 크기 : Unknown size

  • 데이터세트 크기 : 4.11 GiB

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    manual_dir에는 다음 파일이 포함되어야 합니다.

    • news_dialogue.json
    • train_val_test_split.json

파일은 데이터 세트의 GitHub 페이지( https://github.com/zcgzcgzcg1/MediaSum/tree/main/data )에서 다운로드하고 추출할 수 있습니다.

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 10,000
'train' 443,596
'val' 10,000
  • 기능 구조 :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
날짜 텍스트
ID 텍스트
프로그램 텍스트
스피커 시퀀스(텍스트) (없음,)
요약 텍스트
URL 텍스트
우트 시퀀스(텍스트) (없음,)
  • 인용 :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}