- Descrição :
Identificar frases paralelas em corpora comparáveis. Dados dois corpora monolíngues divididos em sentenças, espera-se que os sistemas participantes identifiquem pares de sentenças que são traduções umas das outras.
A tarefa de mineração BUCC é uma tarefa compartilhada na extração de sentenças paralelas de dois corpora monolíngues com um subconjunto deles considerados paralelos e que está disponível desde 2016. Para cada par de idiomas, a tarefa compartilhada fornece um corpus monolíngue para cada idioma e uma lista de mapeamento de ouro contendo pares de tradução verdadeiros. Esses pares são a verdade fundamental. A tarefa é construir uma lista de pares de traduções a partir dos corpora monolíngues. A lista construída é comparada com a verdade de campo e avaliada em termos da medida F1.
Página inicial : https://comparable.limsi.fr/bucc2018/
Código -fonte:
tfds.datasets.bucc.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Cache automático ( documentação ): Sim
Estrutura de recursos :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
source_id | Texto | corda | ||
frase_fonte | Texto | corda | ||
target_id | Texto | corda | ||
frase_alvo | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (configuração padrão)
Tamanho do download :
29.30 MiB
Tamanho do conjunto de dados :
3.21 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 9.580 |
'validation' | 1.038 |
- Exemplos ( tfds.as_dataframe ):
bucc/bucc_fr
Tamanho do download :
21.65 MiB
Tamanho do conjunto de dados :
2.90 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 9.086 |
'validation' | 929 |
- Exemplos ( tfds.as_dataframe ):
bucc/bucc_zh
Tamanho do download :
6.79 MiB
Tamanho do conjunto de dados :
615.20 KiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.899 |
'validation' | 257 |
- Exemplos ( tfds.as_dataframe ):
bucc/bucc_ru
Tamanho do download :
39.44 MiB
Tamanho do conjunto de dados :
6.36 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 14.435 |
'validation' | 2.374 |
- Exemplos ( tfds.as_dataframe ):