- Mô tả :
Multi-News, bao gồm các bài báo và bản tóm tắt do con người viết về những bài báo này từ trang newser.com. Mỗi bản tóm tắt được viết một cách chuyên nghiệp bởi các biên tập viên và bao gồm các liên kết đến các bài báo gốc được trích dẫn.
Có hai tính năng: - tài liệu: văn bản của các bài báo được phân tách bằng mã thông báo đặc biệt "|||||". - summary: tóm tắt tin tức.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/Alex-Fabbri/Multi-News
Mã nguồn :
tfds.summarization.MultiNews
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
245.06 MiB
Kích thước tập dữ liệu :
669.80 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 5,622 |
'train' | 44,972 |
'validation' | 5,622 |
- Cấu trúc tính năng :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tài liệu | Chữ | sợi dây | ||
bản tóm tắt | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('document', 'summary')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@misc{alex2019multinews,
title={Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model},
author={Alexander R. Fabbri and Irene Li and Tianwei She and Suyi Li and Dragomir R. Radev},
year={2019},
eprint={1906.01749},
archivePrefix={arXiv},
primaryClass={cs.CL}
}