- বর্ণনা :
ডেটাতে (DBpedia)[ https://wiki.dbpedia.org/ ] থেকে নিষ্কাশিত বিষয়-প্রেডিকেট-অবজেক্ট ফর্মের 1 থেকে 7 ট্রিপলের সেট রয়েছে এবং এই ট্রিপলগুলির একটি মৌখিক ভাষ্য। পরীক্ষার ডেটা 15টি ভিন্ন ডোমেন বিস্তৃত করে যেখানে প্রশিক্ষণ ডেটাতে শুধুমাত্র 10টি উপস্থিত হয়। ডেটাসেট একটি স্ট্যান্ডার্ড সারণী বিন্যাস অনুসরণ করে।
সোর্স কোড :
tfds.structured.web_nlg.WebNlg
সংস্করণ :
-
0.1.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
19.76 MiB
ডেটাসেটের আকার :
13.78 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test_all' | 4,928 |
'test_unseen' | 2,433 |
'train' | 18,102 |
'validation' | 2,268 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'input_text': FeaturesDict({
'context': string,
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
input_text | ফিচারসডিক্ট | |||
ইনপুট_টেক্সট/প্রসঙ্গ | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল | ক্রম | |||
ইনপুট_টেক্সট/টেবিল/কলাম_হেডার | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল/সামগ্রী | টেনসর | স্ট্রিং | ||
ইনপুট_টেক্সট/টেবিল/সারি_সংখ্যা | টেনসর | int16 | ||
টার্গেট_টেক্সট | টেনসর | স্ট্রিং |
তত্ত্বাবধান করা কী (
as_supervised
ডক হিসেবে ):('input_text', 'target_text')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{gardent2017creating,
title = ""Creating Training Corpora for {NLG} Micro-Planners"",
author = ""Gardent, Claire and
Shimorina, Anastasia and
Narayan, Shashi and
Perez-Beltrachini, Laura"",
booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
month = jul,
year = ""2017"",
address = ""Vancouver, Canada"",
publisher = ""Association for Computational Linguistics"",
doi = ""10.18653/v1/P17-1017"",
pages = ""179--188"",
url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}