- Mô tả :
MC-TACO là một bộ dữ liệu gồm 13 nghìn cặp câu hỏi-câu trả lời yêu cầu khả năng hiểu thông thường theo thời gian. Tập dữ liệu chứa năm thuộc tính tạm thời:
- thời lượng (sự kiện diễn ra trong bao lâu)
- trật tự thời gian (thứ tự điển hình của các sự kiện)
- thời gian điển hình (khi một sự kiện xảy ra)
- tần suất (tần suất một sự kiện xảy ra)
- trạng thái dừng (cho dù trạng thái được duy trì trong một thời gian rất dài hay vô thời hạn)
Chúng tôi hy vọng rằng bộ dữ liệu này có thể thúc đẩy việc khám phá trong tương lai loại vấn đề lý luận cụ thể này.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/CogComp/MCTACO
Mã nguồn :
tfds.datasets.mctaco.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
2.27 MiB
Kích thước tập dữ liệu :
3.18 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 9,442 |
'validation' | 3,783 |
- Cấu trúc tính năng :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'category': ClassLabel(shape=(), dtype=int64, num_classes=5),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'question': Text(shape=(), dtype=string),
'sentence': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
trả lời | Chữ | sợi dây | ||
loại | LớpNhãn | int64 | ||
nhãn | LớpNhãn | int64 | ||
câu hỏi | Chữ | sợi dây | ||
câu | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{ZKNR19,
author = {Ben Zhou, Daniel Khashabi, Qiang Ning and Dan Roth},
title = {"Going on a vacation" takes longer than "Going for a walk": A Study of Temporal Commonsense Understanding },
booktitle = {EMNLP},
year = {2019},
}