- Описание :
OPUS — это коллекция переведенных текстов из Интернета.
Создайте свой собственный конфиг, чтобы выбрать, какую пару данных/язык загружать.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://opus.nlpl.eu/
Исходный код :
tfds.datasets.opus.Builder
Версии :
-
0.1.0
(по умолчанию): нет примечаний к выпуску.
-
Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
де | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('de', 'en')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (конфигурация по умолчанию)
Описание конфига : медицинские документы
Размер загрузки :
34.29 MiB
Размер набора данных :
188.85 MiB
.Автокэширование ( документация ): только когда
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1 108 752 |
- Примеры ( tfds.as_dataframe ):
опус / закон
Описание конфигурации : юридические документы
Размер загрузки :
46.99 MiB
Размер набора данных :
214.44 MiB
.Автокэширование ( документация ): только когда
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'train' | 719 372 |
- Примеры ( tfds.as_dataframe ):
опус/коран
Описание конфигурации : документы Корана
Размер загрузки :
35.42 MiB
Размер набора данных :
117.54 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 537 128 |
- Примеры ( tfds.as_dataframe ):
опус/ИТ
Описание конфигурации : ИТ-документы
Размер загрузки :
10.33 MiB
Размер набора данных :
42.51 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 347 817 |
- Примеры ( tfds.as_dataframe ):
опус/субтитры
Описание конфигурации : документы субтитров
Размер загрузки :
677.64 MiB
Размер набора данных :
2.01 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 22 512 639 |
- Примеры ( tfds.as_dataframe ):