- Описание :
Перевести набор данных на основе данных с statmt.org.
Версии существуют за разные годы с использованием комбинации нескольких источников данных. База wmt_translate
позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных/язык, создав собственный tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Домашняя страница : http://www.statmt.org/wmt17/translation-task.html
Исходный код :
tfds.translate.Wmt17Translate
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Некоторые из приведенных здесь конфигураций wmt требуют загрузки вручную. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (конфигурация по умолчанию)
Описание конфигурации : набор данных задачи перевода WMT 2017 cs-en.
Размер загрузки :
1.66 GiB
Размер набора данных :
2.91 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3005 |
'train' | 15 851 649 |
'validation' | 2999 |
- Структура функции :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
cs | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('cs', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate/de-en
Описание конфигурации : набор данных задачи перевода WMT 2017 de-en.
Размер загрузки :
1.81 GiB
Размер набора данных :
1.73 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3004 |
'train' | 5 906 184 |
'validation' | 2999 |
- Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
де | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('de', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate/fi-ru
Описание конфигурации : набор данных задачи перевода WMT 2017 fi-en.
Размер загрузки :
414.10 MiB
Размер набора данных :
769.87 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6004 |
'train' | 2 656 542 |
'validation' | 6000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
фи | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('fi', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate/lv-ru
Описание конфигурации : набор данных задачи перевода WMT 2017 lv-en.
Размер загрузки :
161.69 MiB
Размер набора данных :
562.26 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2001 |
'train' | 3 567 528 |
'validation' | 2003 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
lv | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('lv', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate/ru-en
Описание конфига: набор задач перевода WMT 2017 ru-en.
Размер загрузки :
1.06 GiB
Размер набора данных :
11.18 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3001 |
'train' | 25 782 720 |
'validation' | 2998 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
RU | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('ru', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate/tr-ru
Описание конфигурации : набор данных задачи перевода WMT 2017 tr-en.
Размер загрузки :
59.32 MiB
Размер набора данных :
63.74 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 3007 |
'train' | 205 756 |
'validation' | 3000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
тр | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('tr', 'en')
Примеры ( tfds.as_dataframe ):
wmt17_translate/zh-ru
Описание конфигурации : набор данных задачи перевода WMT 2017 zh-en.
Размер загрузки :
884.32 MiB
Размер набора данных :
6.43 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2001 |
'train' | 25 136 609 |
'validation' | 2002 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
ж | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('zh', 'en')
Примеры ( tfds.as_dataframe ):