- বর্ণনা :
statmt.org থেকে ডেটার উপর ভিত্তি করে ডেটাসেট অনুবাদ করুন।
একাধিক ডেটা উৎসের সংমিশ্রণ ব্যবহার করে বিভিন্ন বছরের জন্য সংস্করণ বিদ্যমান। বেস wmt_translate
আপনাকে একটি কাস্টম tfds.translate.wmt.WmtConfig
তৈরি করে আপনার নিজস্ব ডেটা/ভাষা জুটি চয়ন করতে আপনার নিজস্ব কনফিগার তৈরি করতে দেয়।
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
সোর্স কোড :
tfds.translate.Wmt16Translate
সংস্করণ :
-
1.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
এখানে কিছু wmt কনফিগার, একটি ম্যানুয়াল ডাউনলোড প্রয়োজন। সঠিক পাথ (এবং ফাইলের নাম) যা ডাউনলোড করতে হবে তা দেখতে অনুগ্রহ করে wmt.py দেখুন।চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (ডিফল্ট কনফিগারেশন)
কনফিগারের বিবরণ : WMT 2016 cs-en অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
1.57 GiB
ডেটাসেটের আকার :
7.56 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ২,৯৯৯ |
'train' | 52,335,651 |
'validation' | 2,656 |
- বৈশিষ্ট্য গঠন :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
cs | পাঠ্য | স্ট্রিং | ||
en | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('cs', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt16_translate/de-en
কনফিগারেশনের বিবরণ : WMT 2016 ডি-এন অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
1.57 GiB
ডেটাসেটের আকার :
1.38 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ২,৯৯৯ |
'train' | ৪,৫৪৮,৮৮৫ |
'validation' | 2,169 |
- বৈশিষ্ট্য গঠন :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
ডি | পাঠ্য | স্ট্রিং | ||
en | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('de', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt16_translate/fi-en
কনফিগারের বিবরণ : WMT 2016 ফাই-এন অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
260.51 MiB
ডেটাসেটের আকার :
624.31 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 6,000 |
'train' | 2,073,394 |
'validation' | 1,370 |
- বৈশিষ্ট্য গঠন :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
en | পাঠ্য | স্ট্রিং | ||
fi | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('fi', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt16_translate/ro-en
কনফিগার বিবরণ : WMT 2016 ro-en অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোডের আকার :
273.83 MiB
ডেটাসেটের আকার :
194.35 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,999 |
'train' | 610,320 |
'validation' | 1,999 |
- বৈশিষ্ট্য গঠন :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
en | পাঠ্য | স্ট্রিং | ||
ro | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('ro', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt16_translate/ru-en
কনফিগ বিবরণ : WMT 2016 ru-en অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
993.38 MiB
ডেটাসেটের আকার :
854.44 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,998 |
'train' | 2,516,162 |
'validation' | 2,818 |
- বৈশিষ্ট্য গঠন :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
en | পাঠ্য | স্ট্রিং | ||
ru | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('ru', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt16_translate/tr-en
কনফিগার বিবরণ : WMT 2016 tr-en অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
59.32 MiB
ডেটাসেটের আকার :
63.21 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 3,000 |
'train' | 205,756 |
'validation' | 1,001 |
- বৈশিষ্ট্য গঠন :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
en | পাঠ্য | স্ট্রিং | ||
tr | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('tr', 'en')
উদাহরণ ( tfds.as_dataframe ):