- Descrizione :
Identificare frasi parallele in corpora comparabili. Dati due corpora monolingui suddivisi in frasi, ci si aspetta che i sistemi partecipanti identifichino coppie di frasi che sono traduzioni l'una dell'altra.
L'attività mineraria BUCC è un'attività condivisa sull'estrazione parallela di frasi da due corpora monolingui con un sottoinsieme di essi considerato parallelo, disponibile dal 2016. Per ogni combinazione linguistica, l'attività condivisa fornisce un corpus monolingue per ciascuna lingua e un elenco di mappatura oro contenente vere coppie di traduzione. Queste coppie sono la verità fondamentale. Il compito è costruire un elenco di coppie di traduzioni dai corpora monolingui. L'elenco costruito viene confrontato con la verità di base e valutato in termini di misura F1.
Pagina iniziale : https://comparable.limsi.fr/bucc2018/
Codice sorgente :
tfds.datasets.bucc.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Auto-cache ( documentazione ): Sì
Struttura delle caratteristiche :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
source_id | Testo | corda | ||
frase_fonte | Testo | corda | ||
target_id | Testo | corda | ||
target_frase | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (configurazione predefinita)
Dimensione del download :
29.30 MiB
Dimensione del set di dati:
3.21 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 9.580 |
'validation' | 1.038 |
- Esempi ( tfds.as_dataframe ):
bucc/bucc_fr
Dimensione del download :
21.65 MiB
Dimensione del set di dati :
2.90 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 9.086 |
'validation' | 929 |
- Esempi ( tfds.as_dataframe ):
bucc/bucc_zh
Dimensione del download :
6.79 MiB
Dimensione del set di dati:
615.20 KiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.899 |
'validation' | 257 |
- Esempi ( tfds.as_dataframe ):
bucc/bucc_ru
Dimensione del download :
39.44 MiB
Dimensione del set di dati:
6.36 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 14.435 |
'validation' | 2.374 |
- Esempi ( tfds.as_dataframe ):