wiki_table_text

  • विवरण :

कम से कम 3 पंक्तियों और 2 स्तंभों वाली विकिपीडिया तालिकाएँ, प्रत्येक तालिका के लिए 3 यादृच्छिक पंक्तियों को आगे के एनोटेशन के लिए चुना गया था। प्रत्येक पंक्ति को एक अलग व्यक्ति द्वारा एनोटेट किया गया था, इसलिए डेटासेट को (एक पंक्ति तालिका, पाठ विवरण) जोड़े द्वारा बनाया गया है। एनोटेशन में पंक्ति के कम से कम 2 सेल शामिल हैं, लेकिन उन सभी को शामिल करने की आवश्यकता नहीं है। डेटासेट एक मानकीकृत तालिका प्रारूप का अनुसरण करता है।

विभाजित करना उदाहरण
'test' 2,000
'train' 10,000
'validation' 1,318
  • फ़ीचर संरचना :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
इनपुट टेक्स्ट विशेषताएं डिक्ट
इनपुट_टेक्स्ट/टेबल क्रम
input_text/टेबल/column_header टेन्सर डोरी
input_text/तालिका/सामग्री टेन्सर डोरी
इनपुट_टेक्स्ट/टेबल/पंक्ति_नंबर टेन्सर int16
target_text टेन्सर डोरी
  • उद्धरण :
@inproceedings{bao2018table,
  title={Table-to-Text: Describing Table Region with Natural Language},
  author={Junwei Bao and Duyu Tang and Nan Duan and Zhao Yan and Yuanhua Lv and Ming Zhou and Tiejun Zhao},
  booktitle={AAAI},
  url={https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16138/16782},
  year={2018}
}