- বর্ণনা :
statmt.org থেকে ডেটার উপর ভিত্তি করে ডেটাসেট অনুবাদ করুন।
একাধিক ডেটা উৎসের সংমিশ্রণ ব্যবহার করে বিভিন্ন বছরের জন্য সংস্করণ বিদ্যমান। বেস wmt_translate
আপনাকে একটি কাস্টম tfds.translate.wmt.WmtConfig
তৈরি করে আপনার নিজস্ব ডেটা/ভাষা জুটি চয়ন করতে আপনার নিজস্ব কনফিগার তৈরি করতে দেয়।
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
সোর্স কোড :
tfds.translate.Wmt15Translate
সংস্করণ :
-
1.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
এখানে কিছু wmt কনফিগার, একটি ম্যানুয়াল ডাউনলোড প্রয়োজন। সঠিক পাথ (এবং ফাইলের নাম) যা ডাউনলোড করতে হবে তা দেখতে অনুগ্রহ করে wmt.py দেখুন।স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@InProceedings{bojar-EtAl:2015:WMT,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Haddow, Barry and Huck, Matthias and Hokamp, Chris and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Scarton, Carolina and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2015 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
month = {September},
year = {2015},
address = {Lisbon, Portugal},
publisher = {Association for Computational Linguistics},
pages = {1--46},
url = {http://aclweb.org/anthology/W15-3001}
}
wmt15_translate/cs-en (ডিফল্ট কনফিগারেশন)
কনফিগার বিবরণ : WMT 2015 cs-en অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোডের আকার :
1.62 GiB
ডেটাসেটের আকার :
2.89 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,656 |
'train' | 15,793,126 |
'validation' | 3,003 |
- বৈশিষ্ট্য গঠন :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
cs | পাঠ্য | স্ট্রিং | ||
en | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('cs', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt15_translate/de-en
কনফিগারেশনের বিবরণ : WMT 2015 ডি-এন অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোডের আকার :
1.62 GiB
ডেটাসেটের আকার :
1.37 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,169 |
'train' | ৪,৫২২,৯৯৮ |
'validation' | 3,003 |
- বৈশিষ্ট্য গঠন :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
ডি | পাঠ্য | স্ট্রিং | ||
en | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('de', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt15_translate/fi-en
কনফিগার বিবরণ : WMT 2015 ফাই-এন অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
260.51 MiB
ডেটাসেটের আকার :
623.22 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,370 |
'train' | 2,073,394 |
'validation' | 1,500 |
- বৈশিষ্ট্য গঠন :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
en | পাঠ্য | স্ট্রিং | ||
fi | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('fi', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt15_translate/fr-en
কনফিগার বিবরণ : WMT 2015 fr-en অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
6.24 GiB
ডেটাসেটের আকার :
14.65 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,500 |
'train' | 40,853,298 |
'validation' | 4,503 |
- বৈশিষ্ট্য গঠন :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
en | পাঠ্য | স্ট্রিং | ||
fr | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কীগুলি (
as_supervised
doc ):('fr', 'en')
উদাহরণ ( tfds.as_dataframe ):
wmt15_translate/ru-en
কনফিগার বিবরণ : WMT 2015 ru-en অনুবাদ টাস্ক ডেটাসেট।
ডাউনলোড সাইজ :
1.02 GiB
ডেটাসেটের আকার :
843.90 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,818 |
'train' | 2,495,081 |
'validation' | 3,003 |
- বৈশিষ্ট্য গঠন :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
অনুবাদ | ||||
en | পাঠ্য | স্ট্রিং | ||
ru | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('ru', 'en')
উদাহরণ ( tfds.as_dataframe ):