bucc

opis :

Identyfikacja zdań równoległych w korpusach porównywalnych. Biorąc pod uwagę dwa jednojęzyczne korpusy podzielone na zdania, oczekuje się, że systemy uczestników będą identyfikować pary zdań, które są wzajemnymi tłumaczeniami.

Zadanie eksploracji BUCC jest wspólnym zadaniem polegającym na równoległym wydobywaniu zdań z dwóch jednojęzycznych korpusów, z których podzbiorem zakłada się, że jest równoległy, i które jest dostępne od 2016 r. Dla każdej pary językowej wspólne zadanie zapewnia jednojęzyczny korpus dla każdego języka i złota lista mapowania zawierająca prawdziwe pary tłumaczeń. Te pary są podstawową prawdą. Zadanie polega na skonstruowaniu listy par tłumaczeniowych z korpusów jednojęzycznych. Skonstruowana lista jest porównywana z prawdą podstawową i oceniana pod względem miary F1.

Strona główna : https://comparable.limsi.fr/bucc2018/
Kod źródłowy : tfds.datasets.bucc.Builder
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Automatyczne buforowanie ( dokumentacja ): Tak
Struktura funkcji :

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
identyfikator_źródła	Tekst	strunowy
zdanie_źródłowe	Tekst	strunowy
identyfikator_celu	Tekst	strunowy
zdanie_docelowe	Tekst	strunowy

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (domyślna konfiguracja)

Rozmiar pliku do pobrania : 29.30 MiB
Rozmiar zestawu danych : 3.21 MiB
Podziały :

Rozdzielać	Przykłady
`'test'`	9580
`'validation'`	1038

Przykłady ( tfds.as_dataframe ):

bucc/bucc_fr

Rozmiar pliku do pobrania : 21.65 MiB
Rozmiar zestawu danych : 2.90 MiB
Podziały :

Rozdzielać	Przykłady
`'test'`	9086
`'validation'`	929

Przykłady ( tfds.as_dataframe ):

bucc/bucc_zh

Rozmiar pliku do pobrania : 6.79 MiB
Rozmiar zbioru danych : 615.20 KiB
Podziały :

Rozdzielać	Przykłady
`'test'`	1899
`'validation'`	257

Przykłady ( tfds.as_dataframe ):

bucc/bucc_ru

Rozmiar pliku do pobrania : 39.44 MiB
Rozmiar zestawu danych : 6.36 MiB
Podziały :

Rozdzielać	Przykłady
`'test'`	14435
`'validation'`	2374

Przykłady ( tfds.as_dataframe ):

bucc Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

bucc/bucc_de (domyślna konfiguracja)

bucc/bucc_fr

bucc/bucc_zh

bucc/bucc_ru

bucc