- Mô tả :
AG là tập hợp của hơn 1 triệu bài báo. Tin bài được ComeToMyHead tổng hợp từ hơn 2000 nguồn tin trong hơn 1 năm hoạt động. ComeToMyHead là một công cụ tìm kiếm tin tức học thuật đã hoạt động từ tháng 7 năm 2004. Bộ dữ liệu được cung cấp bởi cộng đồng học thuật cho mục đích nghiên cứu về khai thác dữ liệu (phân cụm, phân loại, v.v.), truy xuất thông tin (xếp hạng, tìm kiếm, v.v.), xml, nén dữ liệu, truyền dữ liệu và bất kỳ hoạt động phi thương mại nào khác. Để biết thêm thông tin, vui lòng tham khảo liên kết http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
Bộ dữ liệu phân loại chủ đề tin tức của AG được xây dựng bởi Xiang Zhang (xiang.zhang@nyu.edu) từ bộ dữ liệu trên. Nó được sử dụng làm tiêu chuẩn phân loại văn bản trong bài báo sau: Xiang Zhang, Junbo Zhao, Yann LeCun. Mạng tích chập cấp độ ký tự để phân loại văn bản. Những tiến bộ trong Hệ thống xử lý thông tin thần kinh 28 (NIPS 2015).
Bộ dữ liệu phân loại chủ đề tin tức của AG được xây dựng bằng cách chọn 4 lớp lớn nhất từ kho văn bản gốc. Mỗi lớp chứa 30.000 mẫu đào tạo và 1.900 mẫu thử nghiệm. Tổng số mẫu đào tạo là 120.000 và kiểm tra 7.600.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://arxiv.org/abs/1509.01626
Mã nguồn :
tfds.datasets.ag_news_subset.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
11.24 MiB
Kích thước tập dữ liệu :
35.79 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 7.600 |
'train' | 120.000 |
- Cấu trúc tính năng :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
sự mô tả | Chữ | sợi dây | ||
nhãn mác | LớpNhãn | int64 | ||
Tiêu đề | Chữ | sợi dây |
Các khóa được giám sát (Xem tài liệu
as_supervised
):('description', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}