- বর্ণনা :
DART (ডেটা রেকর্ড টু টেক্সট জেনারেশন) তে RDF সত্তা-সম্পর্ক রয়েছে যা ট্রিপল সেটের সমস্ত তথ্যকে কভার করে বাক্যের বিবরণ সহ টীকাযুক্ত। ডার্ট বিদ্যমান ডেটাসেটগুলি ব্যবহার করে তৈরি করা হয়েছিল যেমন: WikiTableQuestions, WikiSQL, WebNLG এবং ক্লিনড E2E। WikiTableQuestions এবং WikiSQL থেকে সারণিগুলিকে সাবজেক্ট-প্রেডিকেট-অবজেক্ট ট্রিপলে রূপান্তরিত করা হয়েছিল এবং এর পাঠ্য টীকাগুলি মূলত MTurk থেকে সংগ্রহ করা হয়েছিল। E2E-তে অর্থপূর্ণ উপস্থাপনাগুলিকেও ট্রিপলে রূপান্তরিত করা হয়েছিল এবং এর বর্ণনাগুলি ব্যবহার করা হয়েছিল, কিছু যা রূপান্তরিত হতে পারেনি তা বাদ দেওয়া হয়েছিল।
E2E এবং WebNLG-এর ডেটাসেট বিভাজন রাখা হয়, এবং WikiTableQuestions এবং WikiSQL-এর জন্য একই সেটে একই রকম টেবিল রাখার জন্য জ্যাকার্ডের মিল ব্যবহার করা হয় (ট্রেন/দেব/টেস)।
এই ডেটাসেটটি একটি স্ট্যান্ডার্ড টেবিল বিন্যাস অনুসরণ করে তৈরি করা হয়েছে।
হোমপেজ : https://github.com/Yale-LILY/dart
সোর্স কোড :
tfds.structured.dart.Dart
সংস্করণ :
-
0.1.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
249.71 MiB
ডেটাসেটের আকার :
38.83 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 12,552 |
'train' | ৬২,৬৫৯ |
'validation' | 6,980 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
input_text | ফিচারসডিক্ট | |||
ইনপুট_টেক্সট/টেবিল | ক্রম | |||
ইনপুট_টেক্সট/টেবিল/কলাম_হেডার | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল/সামগ্রী | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল/সারি_সংখ্যা | টেনসর | int16 | ||
টার্গেট_টেক্সট | টেনসর | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন_তত্ত্বাবধানকৃত ডক
as_supervised
):('input_text', 'target_text')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}