- opis :
Identyfikacja zdań równoległych w korpusach porównywalnych. Biorąc pod uwagę dwa jednojęzyczne korpusy podzielone na zdania, oczekuje się, że systemy uczestników będą identyfikować pary zdań, które są wzajemnymi tłumaczeniami.
Zadanie eksploracji BUCC jest wspólnym zadaniem polegającym na równoległym wydobywaniu zdań z dwóch jednojęzycznych korpusów, z których podzbiorem zakłada się, że jest równoległy, i które jest dostępne od 2016 r. Dla każdej pary językowej wspólne zadanie zapewnia jednojęzyczny korpus dla każdego języka i złota lista mapowania zawierająca prawdziwe pary tłumaczeń. Te pary są podstawową prawdą. Zadanie polega na skonstruowaniu listy par tłumaczeniowych z korpusów jednojęzycznych. Skonstruowana lista jest porównywana z prawdą podstawową i oceniana pod względem miary F1.
Strona główna : https://comparable.limsi.fr/bucc2018/
Kod źródłowy :
tfds.datasets.bucc.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Automatyczne buforowanie ( dokumentacja ): Tak
Struktura funkcji :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_źródła | Tekst | strunowy | ||
zdanie_źródłowe | Tekst | strunowy | ||
identyfikator_celu | Tekst | strunowy | ||
zdanie_docelowe | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (domyślna konfiguracja)
Rozmiar pliku do pobrania :
29.30 MiB
Rozmiar zestawu danych :
3.21 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 9580 |
'validation' | 1038 |
- Przykłady ( tfds.as_dataframe ):
bucc/bucc_fr
Rozmiar pliku do pobrania :
21.65 MiB
Rozmiar zestawu danych :
2.90 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 9086 |
'validation' | 929 |
- Przykłady ( tfds.as_dataframe ):
bucc/bucc_zh
Rozmiar pliku do pobrania :
6.79 MiB
Rozmiar zbioru danych :
615.20 KiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1899 |
'validation' | 257 |
- Przykłady ( tfds.as_dataframe ):
bucc/bucc_ru
Rozmiar pliku do pobrania :
39.44 MiB
Rozmiar zestawu danych :
6.36 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 14435 |
'validation' | 2374 |
- Przykłady ( tfds.as_dataframe ):