tatoeba

  • Descrição :

Esses dados são extraídos do corpus Tatoeba, datado de sábado 11/11/2018.

Para cada idioma, selecionamos 1000 frases em inglês e suas traduções, se disponíveis. Verifique este documento para obter uma descrição dos idiomas, suas famílias e scripts, bem como os resultados da linha de base.

Observe que as frases em inglês não são idênticas para todos os pares de idiomas. Isso significa que os resultados não são diretamente comparáveis ​​entre os idiomas.

FeaturesDict({
    'source_language': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_language': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Documentação do recurso :
Recurso Aula Forma Tipo D Descrição
RecursosDict
idioma_fonte Texto corda
frase_fonte Texto corda
idioma_alvo Texto corda
frase_alvo Texto corda
@article{tatoeba,
          title={Massively Multilingual Sentence Embeddings for Zero-Shot
                   Cross-Lingual Transfer and Beyond},
          author={Mikel, Artetxe and Holger, Schwenk,},
          journal={arXiv:1812.10464v2},
          year={2018}
}

@InProceedings{TIEDEMANN12.463,
  author = {J{\"o}rg}rg Tiedemann},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
  year = {2012},
  month = {may},
  date = {23-25},
  address = {Istanbul, Turkey},
  editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
  publisher = {European Language Resources Association (ELRA)},
  isbn = {978-2-9517408-7-7},
  language = {english}
}

tatoeba/tatoeba_af (configuração padrão)

  • Tamanho do download : 58.24 KiB

  • Tamanho do conjunto de dados : 162.74 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_ar

  • Tamanho do download : 70.95 KiB

  • Tamanho do conjunto de dados : 175.46 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_bg

  • Tamanho do download : 99.88 KiB

  • Tamanho do conjunto de dados : 204.64 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_bn

  • Tamanho do download : 89.55 KiB

  • Tamanho do conjunto de dados : 194.24 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_de

  • Tamanho do download : 103.09 KiB

  • Tamanho do conjunto de dados : 207.93 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_el

  • Tamanho do download : 77.11 KiB

  • Tamanho do conjunto de dados : 181.65 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_es

  • Tamanho do download : 70.57 KiB

  • Tamanho do conjunto de dados : 175.12 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_et

  • Tamanho do download : 58.33 KiB

  • Tamanho do conjunto de dados : 162.85 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_eu

  • Tamanho do download : 64.52 KiB

  • Tamanho do conjunto de dados : 169.02 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_fa

  • Tamanho do download : 91.52 KiB

  • Tamanho do conjunto de dados : 196.15 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_fi

  • Tamanho do download : 73.90 KiB

  • Tamanho do conjunto de dados : 178.47 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_fr

  • Tamanho do download : 78.14 KiB

  • Tamanho do conjunto de dados : 182.68 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_he

  • Tamanho do download : 81.54 KiB

  • Tamanho do conjunto de dados : 186.15 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_hi

  • Tamanho do download : 119.69 KiB

  • Tamanho do conjunto de dados : 224.89 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_hu

  • Tamanho do download : 67.27 KiB

  • Tamanho do conjunto de dados : 171.78 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_id

  • Tamanho do download : 73.09 KiB

  • Tamanho do conjunto de dados : 177.61 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_it

  • Tamanho do download : 64.29 KiB

  • Tamanho do conjunto de dados : 168.81 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_ja

  • Tamanho do download : 90.90 KiB

  • Tamanho do conjunto de dados : 195.53 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_jv

  • Tamanho do download : 13.59 KiB

  • Tamanho do conjunto de dados : 35.01 KiB

  • Divisões :

Dividir Exemplos
'train' 205

tatoeba/tatoeba_ka

  • Tamanho do download : 70.47 KiB

  • Tamanho do conjunto de dados : 148.67 KiB

  • Divisões :

Dividir Exemplos
'train' 746

tatoeba/tatoeba_kk

  • Tamanho do download : 46.07 KiB

  • Tamanho do conjunto de dados : 106.25 KiB

  • Divisões :

Dividir Exemplos
'train' 575

tatoeba/tatoeba_ko

  • Tamanho do download : 77.28 KiB

  • Tamanho do conjunto de dados : 181.88 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_ml

  • Tamanho do download : 92.50 KiB

  • Tamanho do conjunto de dados : 165.14 KiB

  • Divisões :

Dividir Exemplos
'train' 687

tatoeba/tatoeba_mr

  • Tamanho do download : 98.19 KiB

  • Tamanho do conjunto de dados : 202.96 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_nl

  • Tamanho do download : 71.55 KiB

  • Tamanho do conjunto de dados : 176.10 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_pt

  • Tamanho do download : 73.42 KiB

  • Tamanho do conjunto de dados : 177.95 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_ru

  • Tamanho do download : 90.30 KiB

  • Tamanho do conjunto de dados : 194.92 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_sw

  • Tamanho do download : 19.99 KiB

  • Tamanho do conjunto de dados : 60.75 KiB

  • Divisões :

Dividir Exemplos
'train' 390

tatoeba/tatoeba_ta

  • Tamanho do download : 38.52 KiB

  • Tamanho do conjunto de dados : 70.93 KiB

  • Divisões :

Dividir Exemplos
'train' 307

tatoeba/tatoeba_te

  • Tamanho do download : 24.55 KiB

  • Tamanho do conjunto de dados : 49.07 KiB

  • Divisões :

Dividir Exemplos
'train' 234

tatoeba/tatoeba_th

  • Tamanho do download : 61.72 KiB

  • Tamanho do conjunto de dados : 119.32 KiB

  • Divisões :

Dividir Exemplos
'train' 548

tatoeba/tatoeba_tl

  • Tamanho do download : 66.54 KiB

  • Tamanho do conjunto de dados : 171.04 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_tr

  • Tamanho do download : 70.20 KiB

  • Tamanho do conjunto de dados : 174.70 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_ur

  • Tamanho do download : 86.63 KiB

  • Tamanho do conjunto de dados : 191.20 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_vi

  • Tamanho do download : 89.26 KiB

  • Tamanho do conjunto de dados : 193.89 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000

tatoeba/tatoeba_zh

  • Tamanho do download : 67.32 KiB

  • Tamanho do conjunto de dados : 171.85 KiB

  • Divisões :

Dividir Exemplos
'train' 1.000