- Açıklama :
Karşılaştırılabilir derlemlerde paralel cümlelerin belirlenmesi. İki cümleye bölünmüş tek dilli derlem verildiğinde, katılımcı sistemlerin birbirinin çevirisi olan cümle çiftlerini tanımlaması beklenir.
BUCC araştırma görevi, bir alt kümesinin paralel olduğu varsayılan iki tek dilli derlemden paralel cümle çıkarma üzerine paylaşılan bir görevdir ve 2016'dan beri mevcuttur. Paylaşılan görev, her dil çifti için tek dilli bir derlem sağlar ve gerçek çeviri çiftlerini içeren bir altın eşleme listesi. Bu çiftler temel gerçektir. Görev, tek dilli derlemden çeviri çiftlerinin bir listesini oluşturmaktır. Oluşturulan liste, temel gerçekle karşılaştırılır ve F1 ölçüsü açısından değerlendirilir.
Anasayfa : https://comparable.limsi.fr/bucc2018/
Kaynak kodu :
tfds.datasets.bucc.Builder
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
Otomatik önbelleğe alınmış ( belgeleme ): Evet
Özellik yapısı :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
kaynak_kimliği | Metin | sicim | ||
kaynak_sentence | Metin | sicim | ||
hedef_kimliği | Metin | sicim | ||
hedef cümle | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (varsayılan yapılandırma)
İndirme boyutu :
29.30 MiB
Veri kümesi boyutu :
3.21 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 9.580 |
'validation' | 1.038 |
- Örnekler ( tfds.as_dataframe ):
bucc/bucc_fr
İndirme boyutu :
21.65 MiB
Veri kümesi boyutu :
2.90 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 9.086 |
'validation' | 929 |
- Örnekler ( tfds.as_dataframe ):
bucc/bucc_zh
İndirme boyutu :
6.79 MiB
Veri kümesi boyutu :
615.20 KiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 1.899 |
'validation' | 257 |
- Örnekler ( tfds.as_dataframe ):
bucc/bucc_ru
İndirme boyutu :
39.44 MiB
Veri kümesi boyutu :
6.36 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 14.435 |
'validation' | 2.374 |
- Örnekler ( tfds.as_dataframe ):