बुके

विवरण :

तुलनीय कॉर्पोरा में समानांतर वाक्यों की पहचान करना। दो वाक्य-विभाजित मोनोलिंगुअल कॉर्पोरा को देखते हुए, प्रतिभागी प्रणालियों से उन वाक्यों के जोड़े की पहचान करने की अपेक्षा की जाती है जो एक दूसरे के अनुवाद हैं।

BUCC खनन कार्य दो मोनोलिंगुअल कॉर्पोरा से समानांतर वाक्य निष्कर्षण पर एक साझा कार्य है, जिसमें से एक सबसेट को समानांतर माना जाता है, और यह 2016 से उपलब्ध है। प्रत्येक भाषा जोड़ी के लिए, साझा कार्य प्रत्येक भाषा के लिए एक मोनोलिंगुअल कॉर्पस प्रदान करता है और एक गोल्ड मैपिंग सूची जिसमें सच्चे अनुवाद जोड़े हैं। ये जोड़ियाँ जमीनी सच्चाई हैं। कार्य मोनोलिंगुअल कॉरपोरा से अनुवाद जोड़े की सूची बनाना है। निर्मित सूची की तुलना जमीनी सच्चाई से की जाती है, और F1 माप के संदर्भ में मूल्यांकन किया जाता है।

होमपेज : https://comparable.limsi.fr/bucc2018/
स्रोत कोड : tfds.datasets.bucc.Builder
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
फ़ीचर संरचना :

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
स्रोत_आईडी	मूलपाठ	डोरी
स्रोत वाक्य	मूलपाठ	डोरी
target_id	मूलपाठ	डोरी
target_sentence	मूलपाठ	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (डिफ़ॉल्ट कॉन्फ़िगरेशन)

डाउनलोड आकार : 29.30 MiB
डेटासेट का आकार : 3.21 MiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	9,580
`'validation'`	1,038

उदाहरण ( tfds.as_dataframe ):

bcc/bucc_fr

डाउनलोड आकार : 21.65 MiB
डेटासेट का आकार : 2.90 MiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	9,086
`'validation'`	929

उदाहरण ( tfds.as_dataframe ):

bcc/bucc_zh

डाउनलोड आकार : 6.79 MiB
डेटासेट का आकार : 615.20 KiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	1,899
`'validation'`	257

उदाहरण ( tfds.as_dataframe ):

bcc/bucc_ru

डाउनलोड आकार : 39.44 MiB
डेटासेट का आकार : 6.36 MiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	14,435
`'validation'`	2,374

उदाहरण ( tfds.as_dataframe ):

बुके संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

bucc/bucc_de (डिफ़ॉल्ट कॉन्फ़िगरेशन)

bcc/bucc_fr

bcc/bucc_zh

bcc/bucc_ru

बुके