bouc

  • Descriptif :

Identifier des phrases parallèles dans des corpus comparables. Étant donné deux corpus monolingues divisés en phrases, les systèmes participants sont censés identifier des paires de phrases qui sont des traductions l'une de l'autre.

La tâche de minage BUCC est une tâche partagée d'extraction de phrases parallèles à partir de deux corpus monolingues dont un sous-ensemble est supposé être parallèle, et qui est disponible depuis 2016. Pour chaque paire de langues, la tâche partagée fournit un corpus monolingue pour chaque langue et une liste de mappage d'or contenant de vraies paires de traduction. Ces paires sont la vérité de terrain. La tâche est de construire une liste de paires de traduction à partir des corpus monolingues. La liste construite est comparée à la vérité terrain et évaluée en fonction de la mesure F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
id_source Texte chaîne de caractères
phrase_source Texte chaîne de caractères
id_cible Texte chaîne de caractères
phrase_cible Texte chaîne de caractères
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (configuration par défaut)

  • Taille du téléchargement : 29.30 MiB

  • Taille du jeu de données : 3.21 MiB

  • Fractionnements :

Diviser Exemples
'test' 9 580
'validation' 1 038

bucc/bucc_fr

  • Taille du téléchargement : 21.65 MiB

  • Taille du jeu de données : 2.90 MiB

  • Fractionnements :

Diviser Exemples
'test' 9 086
'validation' 929

bucc/bucc_zh

  • Taille du téléchargement : 6.79 MiB

  • Taille du jeu de données : 615.20 KiB

  • Fractionnements :

Diviser Exemples
'test' 1 899
'validation' 257

bucc/bucc_ru

  • Taille du téléchargement : 39.44 MiB

  • Taille du jeu de données : 6.36 MiB

  • Fractionnements :

Diviser Exemples
'test' 14 435
'validation' 2 374