- Mô tả :
ASSET là bộ dữ liệu để đánh giá các hệ thống Đơn giản hóa Câu với nhiều phép biến đổi viết lại, như được mô tả trong "ASSET: Bộ dữ liệu để điều chỉnh và đánh giá các mô hình đơn giản hóa câu với nhiều phép biến đổi viết lại." Kho ngữ liệu bao gồm 2000 câu xác thực và 359 câu gốc kiểm tra, mỗi câu được đơn giản hóa 10 lần bởi những người chú thích khác nhau. Kho ngữ liệu cũng chứa các đánh giá của con người về khả năng bảo toàn ý nghĩa, tính lưu loát và tính đơn giản đối với kết quả đầu ra của một số hệ thống đơn giản hóa văn bản tự động.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/facebookresearch/asset
Mã nguồn :
tfds.datasets.asset.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
3.47 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
tài sản/đơn giản hóa (cấu hình mặc định)
Mô tả cấu hình : Một tập hợp các câu gốc được căn chỉnh với 10 cách đơn giản hóa có thể có cho mỗi câu.
Kích thước tập dữ liệu :
2.64 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 359 |
'validation' | 2.000 |
- Cấu trúc tính năng :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nguyên bản | Chữ | sợi dây | ||
đơn giản hóa | Trình tự (Văn bản) | (Không có,) | sợi dây |
- Ví dụ ( tfds.as_dataframe ):
tài sản/xếp hạng
Mô tả cấu hình : Đánh giá của con người về đơn giản hóa văn bản được tạo tự động.
Kích thước tập dữ liệu :
1.44 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'full' | 4.500 |
- Cấu trúc tính năng :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
diện mạo | LớpNhãn | int64 | ||
nguyên bản | Chữ | sợi dây | ||
original_sentence_id | tenxơ | int32 | ||
Xếp hạng | tenxơ | int32 | ||
đơn giản hóa | Chữ | sợi dây | ||
worker_id | tenxơ | int32 |
- Ví dụ ( tfds.as_dataframe ):