- Mô tả :
Các bảng Wikipedia có ít nhất 3 hàng và 2 cột, 3 hàng ngẫu nhiên cho mỗi bảng đã được chọn để chú thích thêm. Mỗi hàng được chú thích bởi một người khác, vì vậy tập dữ liệu được tạo bởi các cặp (bảng một hàng, mô tả văn bản). Chú thích bao gồm ít nhất 2 ô của hàng, nhưng không bắt buộc phải bao gồm tất cả. Bộ dữ liệu tuân theo định dạng bảng được chuẩn hóa.
Trang chủ : https://github.com/msra-nlc/Table2Text
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
3.70 MiB
Kích thước tập dữ liệu :
4.64 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 10.000 |
'validation' | 1.318 |
- Cấu trúc tính năng :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhập ký tự | Tính năngDict | |||
input_text/bảng | Sự phối hợp | |||
input_text/table/column_header | tenxơ | sợi dây | ||
input_text/bảng/nội dung | tenxơ | sợi dây | ||
input_text/table/row_number | tenxơ | int16 | ||
văn bản đích | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('input_text', 'target_text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{bao2018table,
title={Table-to-Text: Describing Table Region with Natural Language},
author={Junwei Bao and Duyu Tang and Nan Duan and Zhao Yan and Yuanhua Lv and Ming Zhou and Tiejun Zhao},
booktitle={AAAI},
url={https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16138/16782},
year={2018}
}