obra

  • Descrição :

OPUS é uma coleção de textos traduzidos da web.

Crie sua própria configuração para escolher qual par de dados/idioma carregar.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
de Texto corda
pt Texto corda
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/medical (configuração padrão)

  • Descrição da configuração : documentos médicos

  • Tamanho do download : 34.29 MiB

  • Tamanho do conjunto de dados : 188.85 MiB

  • Armazenado em cache automaticamente ( documentação ): Somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'train' 1.108.752

obra/lei

  • Descrição da configuração : documentos legais

  • Tamanho do download : 46.99 MiB

  • Tamanho do conjunto de dados : 214.44 MiB

  • Armazenado em cache automaticamente ( documentação ): Somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'train' 719.372

opus/alcorão

  • Descrição da configuração : documentos do Alcorão

  • Tamanho do download : 35.42 MiB

  • Tamanho do conjunto de dados : 117.54 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 537.128

obra/IT

  • Descrição da configuração : documentos de TI

  • Tamanho do download : 10.33 MiB

  • Tamanho do conjunto de dados : 42.51 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 347.817

obra/legendas

  • Descrição da configuração : documentos de legendas

  • Tamanho do download : 677.64 MiB

  • Tamanho do conjunto de dados : 2.01 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'train' 22.512.639