- توضیحات :
مجموعه داده را بر اساس داده های statmt.org ترجمه کنید.
نسخه ها برای سال های مختلف با استفاده از ترکیبی از چندین منبع داده وجود دارد. wmt_translate
پایه به شما امکان می دهد با ایجاد یک tfds.translate.wmt.WmtConfig
سفارشی، پیکربندی خود را ایجاد کنید تا جفت داده/زبان خود را انتخاب کنید.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://www.statmt.org/wmt16/translation-task.html
کد منبع :
tfds.translate.Wmt16Translate
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
برخی از تنظیمات wmt در اینجا نیاز به دانلود دستی دارند. لطفاً برای دیدن مسیر دقیق (و نام فایل) که باید دانلود شود، به wmt.py نگاه کنید.شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2016 cs-en.
حجم دانلود :
1.57 GiB
حجم مجموعه داده :
7.56 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2999 |
'train' | 52,335,651 |
'validation' | 2656 |
- ساختار ویژگی :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
cs | متن | رشته | ||
en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('cs', 'en')
مثالها ( tfds.as_dataframe ):
wmt16_translate/de-en
شرح پیکربندی : مجموعه داده وظایف ترجمه WMT 2016 de-en.
حجم دانلود :
1.57 GiB
حجم مجموعه داده :
1.38 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2999 |
'train' | 4,548,885 |
'validation' | 2,169 |
- ساختار ویژگی :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
de | متن | رشته | ||
en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('de', 'en')
مثالها ( tfds.as_dataframe ):
wmt16_translate/fi-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2016 fi-en.
حجم دانلود :
260.51 MiB
حجم مجموعه داده :
624.31 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 6000 |
'train' | 2,073,394 |
'validation' | 1,370 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
فی | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('fi', 'en')
مثالها ( tfds.as_dataframe ):
wmt16_translate/ro-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2016 ro-en.
حجم دانلود :
273.83 MiB
حجم مجموعه داده :
194.35 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 1999 |
'train' | 610,320 |
'validation' | 1999 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
ro | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('ro', 'en')
مثالها ( tfds.as_dataframe ):
wmt16_translate/ru-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2016 ru-en.
حجم دانلود :
993.38 MiB
حجم مجموعه داده :
854.44 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2998 |
'train' | 2,516,162 |
'validation' | 2,818 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
ru | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('ru', 'en')
مثالها ( tfds.as_dataframe ):
wmt16_translate/tr-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2016 tr-en.
حجم دانلود :
59.32 MiB
حجم مجموعه داده :
63.21 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 3000 |
'train' | 205756 |
'validation' | 1001 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
tr | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('tr', 'en')
مثالها ( tfds.as_dataframe ):