- Mô tả :
WikiHow là một bộ dữ liệu quy mô lớn mới sử dụng cơ sở kiến thức WikiHow ( http://www.wikihow.com/ ) trực tuyến.
Có hai tính năng: - văn bản: wikihow trả lời văn bản. - tít: những dòng in đậm như phần tóm tắt.
Có hai phiên bản riêng biệt: - tất cả: bao gồm phần nối của tất cả các đoạn dưới dạng bài viết và các dòng in đậm dưới dạng tóm tắt tài liệu tham khảo. - sep: gồm từng đoạn và tóm tắt của nó.
Tải xuống "wikihowAll.csv" và "wikihowSep.csv" từ https://github.com/mahnazkoupaee/WikiHow-Dataset và đặt chúng vào thư mục thủ công https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Việc phân tách đào tạo/xác thực/kiểm tra được cung cấp bởi các tác giả. Quá trình tiền xử lý được áp dụng để loại bỏ các bài viết ngắn (độ dài tóm tắt < 0,75 độ dài bài viết) và xóa các dấu phẩy thừa.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/mahnazkoupaee/WikiHow-Dataset
Mã nguồn :
tfds.summarization.Wikihow
Phiên bản :
-
1.2.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
5.21 MiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Có thể tìm thấy liên kết đến các tệp trên https://github.com/mahnazkoupaee/WikiHow-Dataset Vui lòng tải xuống cả wikihowAll.csv và wikihowSep.csv.Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'headline')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (cấu hình mặc định)
Mô tả cấu hình : Sử dụng nối tất cả các đoạn làm bài viết và các dòng in đậm làm tóm tắt tham khảo
Kích thước tập dữ liệu :
531.56 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- Cấu trúc tính năng :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tiêu đề | Chữ | sợi dây | ||
chữ | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
wikihow/tháng 9
Mô tả cấu hình : sử dụng từng đoạn và tóm tắt của nó.
Kích thước tập dữ liệu :
1.07 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 37.800 |
'train' | 1.060.732 |
'validation' | 37,932 |
- Cấu trúc tính năng :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
tiêu đề | Chữ | sợi dây | ||
tổng quát | Chữ | sợi dây | ||
phầnNhãn | Chữ | sợi dây | ||
chữ | Chữ | sợi dây | ||
Tiêu đề | Chữ | sợi dây |
- Ví dụ ( tfds.as_dataframe ):