- Mô tả :
DART (Tạo bản ghi dữ liệu thành văn bản) chứa mối quan hệ thực thể RDF được chú thích với các mô tả câu bao gồm tất cả các sự kiện trong bộ ba. DART được xây dựng bằng cách sử dụng các bộ dữ liệu hiện có như: WikiTableQuestions, WikiSQL, WebNLG và Cleaned E2E. Các bảng từ WikiTableQuestions và WikiSQL đã được chuyển thành bộ ba chủ ngữ-vị ngữ-đối tượng và chú thích văn bản của nó chủ yếu được thu thập từ MTurk. Các biểu diễn có ý nghĩa trong E2E cũng được chuyển thành bộ ba và các mô tả của nó đã được sử dụng, một số biểu diễn không thể chuyển đổi đã bị loại bỏ.
Các phần tách tập dữ liệu của E2E và WebNLG được giữ nguyên, còn đối với WikiTableQuestions và WikiSQL, sự giống nhau của Jaccard được sử dụng để giữ các bảng tương tự trong cùng một tập hợp (train/dev/tes).
Bộ dữ liệu này được xây dựng theo định dạng bảng được chuẩn hóa.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/Yale-LILY/dart
Mã nguồn :
tfds.structured.dart.Dart
Phiên bản :
-
0.1.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
249.71 MiB
Kích thước tập dữ liệu :
38.83 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 12,552 |
'train' | 62,659 |
'validation' | 6.980 |
- Cấu trúc tính năng :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nhập ký tự | Tính năngDict | |||
input_text/bảng | Sự phối hợp | |||
input_text/table/column_header | tenxơ | sợi dây | ||
input_text/bảng/nội dung | tenxơ | sợi dây | ||
input_text/table/row_number | tenxơ | int16 | ||
văn bản đích | tenxơ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('input_text', 'target_text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}