- Descrição :
OPUS é uma coleção de textos traduzidos da web.
Crie sua própria configuração para escolher qual par de dados/idioma carregar.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Documentação Adicional : Explore em Papers With Code
Página inicial : http://opus.nlpl.eu/
Código -fonte:
tfds.datasets.opus.Builder
Versões :
-
0.1.0
(padrão): sem notas de versão.
-
Estrutura de recursos :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
de | Texto | corda | ||
pt | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('de', 'en')
Figura ( tfds.show_examples ): Não compatível.
Citação :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (configuração padrão)
Descrição da configuração : documentos médicos
Tamanho do download :
34.29 MiB
Tamanho do conjunto de dados :
188.85 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.108.752 |
- Exemplos ( tfds.as_dataframe ):
obra/lei
Descrição da configuração : documentos legais
Tamanho do download :
46.99 MiB
Tamanho do conjunto de dados :
214.44 MiB
Armazenado em cache automaticamente ( documentação ): Somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 719.372 |
- Exemplos ( tfds.as_dataframe ):
opus/alcorão
Descrição da configuração : documentos do Alcorão
Tamanho do download :
35.42 MiB
Tamanho do conjunto de dados :
117.54 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 537.128 |
- Exemplos ( tfds.as_dataframe ):
obra/IT
Descrição da configuração : documentos de TI
Tamanho do download :
10.33 MiB
Tamanho do conjunto de dados :
42.51 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 347.817 |
- Exemplos ( tfds.as_dataframe ):
obra/legendas
Descrição da configuração : documentos de legendas
Tamanho do download :
677.64 MiB
Tamanho do conjunto de dados :
2.01 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 22.512.639 |
- Exemplos ( tfds.as_dataframe ):