โผ

  • คำอธิบาย :

DART (การสร้างบันทึก DAta เป็นข้อความ) ประกอบด้วยความสัมพันธ์ของเอนทิตี RDF ที่มีคำอธิบายประกอบพร้อมคำอธิบายประโยคที่ครอบคลุมข้อเท็จจริงทั้งหมดในชุดสามส่วน DART สร้างขึ้นโดยใช้ชุดข้อมูลที่มีอยู่ เช่น WikiTableQuestions, WikiSQL, WebNLG และ Cleaned E2E ตารางจาก WikiTableQuestions และ WikiSQL ถูกแปลงเป็นหัวเรื่อง-เพรดิเคต-อ็อบเจกต์สามตัว และคำอธิบายประกอบแบบข้อความนั้นรวบรวมจาก MTurk เป็นหลัก การแทนค่าที่มีความหมายใน E2E ยังถูกแปลงเป็นสามเท่าและมีการใช้คำอธิบาย บางส่วนที่ไม่สามารถแปลงได้ก็ถูกละทิ้ง

การแยกชุดข้อมูลของ E2E และ WebNLG จะถูกเก็บไว้ และสำหรับ WikiTableQuestions และ WikiSQL จะใช้ความคล้ายคลึงกันของ Jaccard เพื่อเก็บตารางที่คล้ายกันไว้ในชุดเดียวกัน (train/dev/tes)

ชุดข้อมูลนี้สร้างขึ้นตามรูปแบบตารางที่เป็นมาตรฐาน

แยก ตัวอย่าง
'test' 12,552
'train' 62,659
'validation' 6,980
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
อินพุต_ข้อความ คุณสมบัติDict
input_text/ตาราง ลำดับ
input_text/table/column_header เทนเซอร์ สตริง
input_text/table/content เทนเซอร์ สตริง
input_text/table/row_number เทนเซอร์ int16
target_text เทนเซอร์ สตริง
  • การอ้างอิง :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}