- Descripción :
Identificación de oraciones paralelas en corpus comparables. Dados dos corpus monolingües divididos en oraciones, se espera que los sistemas participantes identifiquen pares de oraciones que son traducciones entre sí.
La tarea de minería BUCC es una tarea compartida sobre la extracción de oraciones paralelas de dos corpus monolingües con un subconjunto de ellos asumido como paralelo, y que ha estado disponible desde 2016. Para cada par de idiomas, la tarea compartida proporciona un corpus monolingüe para cada idioma y una lista de mapeo de oro que contiene pares de traducción verdaderos. Estos pares son la verdad fundamental. La tarea es construir una lista de pares de traducción de los corpus monolingües. La lista construida se compara con la realidad básica y se evalúa en términos de la medida F1.
Página de inicio: https://comparable.limsi.fr/bucc2018/
Código fuente :
tfds.datasets.bucc.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Almacenamiento automático en caché ( documentación ): Sí
Estructura de características :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
source_id | Texto | cuerda | ||
oración_origen | Texto | cuerda | ||
target_id | Texto | cuerda | ||
frase_objetivo | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (configuración predeterminada)
Tamaño de descarga :
29.30 MiB
Tamaño del conjunto de datos :
3.21 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 9,580 |
'validation' | 1,038 |
- Ejemplos ( tfds.as_dataframe ):
bucc/bucc_fr
Tamaño de la descarga :
21.65 MiB
Tamaño del conjunto de datos :
2.90 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 9,086 |
'validation' | 929 |
- Ejemplos ( tfds.as_dataframe ):
bucc/bucc_zh
Tamaño de la descarga :
6.79 MiB
Tamaño del conjunto de datos :
615.20 KiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 1,899 |
'validation' | 257 |
- Ejemplos ( tfds.as_dataframe ):
bucc/bucc_ru
Tamaño de la descarga :
39.44 MiB
Tamaño del conjunto de datos :
6.36 MiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 14,435 |
'validation' | 2,374 |
- Ejemplos ( tfds.as_dataframe ):