buco

  • Descrição :

Identificar frases paralelas em corpora comparáveis. Dados dois corpora monolíngues divididos em sentenças, espera-se que os sistemas participantes identifiquem pares de sentenças que são traduções umas das outras.

A tarefa de mineração BUCC é uma tarefa compartilhada na extração de sentenças paralelas de dois corpora monolíngues com um subconjunto deles considerados paralelos e que está disponível desde 2016. Para cada par de idiomas, a tarefa compartilhada fornece um corpus monolíngue para cada idioma e uma lista de mapeamento de ouro contendo pares de tradução verdadeiros. Esses pares são a verdade fundamental. A tarefa é construir uma lista de pares de traduções a partir dos corpora monolíngues. A lista construída é comparada com a verdade de campo e avaliada em termos da medida F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
source_id Texto corda
frase_fonte Texto corda
target_id Texto corda
frase_alvo Texto corda
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (configuração padrão)

  • Tamanho do download : 29.30 MiB

  • Tamanho do conjunto de dados : 3.21 MiB

  • Divisões :

Dividir Exemplos
'test' 9.580
'validation' 1.038

bucc/bucc_fr

  • Tamanho do download : 21.65 MiB

  • Tamanho do conjunto de dados : 2.90 MiB

  • Divisões :

Dividir Exemplos
'test' 9.086
'validation' 929

bucc/bucc_zh

  • Tamanho do download : 6.79 MiB

  • Tamanho do conjunto de dados : 615.20 KiB

  • Divisões :

Dividir Exemplos
'test' 1.899
'validation' 257

bucc/bucc_ru

  • Tamanho do download : 39.44 MiB

  • Tamanho do conjunto de dados : 6.36 MiB

  • Divisões :

Dividir Exemplos
'test' 14.435
'validation' 2.374