- विवरण :
तुलनीय कॉर्पोरा में समानांतर वाक्यों की पहचान करना। दो वाक्य-विभाजित मोनोलिंगुअल कॉर्पोरा को देखते हुए, प्रतिभागी प्रणालियों से उन वाक्यों के जोड़े की पहचान करने की अपेक्षा की जाती है जो एक दूसरे के अनुवाद हैं।
BUCC खनन कार्य दो मोनोलिंगुअल कॉर्पोरा से समानांतर वाक्य निष्कर्षण पर एक साझा कार्य है, जिसमें से एक सबसेट को समानांतर माना जाता है, और यह 2016 से उपलब्ध है। प्रत्येक भाषा जोड़ी के लिए, साझा कार्य प्रत्येक भाषा के लिए एक मोनोलिंगुअल कॉर्पस प्रदान करता है और एक गोल्ड मैपिंग सूची जिसमें सच्चे अनुवाद जोड़े हैं। ये जोड़ियाँ जमीनी सच्चाई हैं। कार्य मोनोलिंगुअल कॉरपोरा से अनुवाद जोड़े की सूची बनाना है। निर्मित सूची की तुलना जमीनी सच्चाई से की जाती है, और F1 माप के संदर्भ में मूल्यांकन किया जाता है।
स्रोत कोड :
tfds.datasets.bucc.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
फ़ीचर संरचना :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
स्रोत_आईडी | मूलपाठ | डोरी | ||
स्रोत वाक्य | मूलपाठ | डोरी | ||
target_id | मूलपाठ | डोरी | ||
target_sentence | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डाउनलोड आकार :
29.30 MiB
डेटासेट का आकार :
3.21 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 9,580 |
'validation' | 1,038 |
- उदाहरण ( tfds.as_dataframe ):
bcc/bucc_fr
डाउनलोड आकार :
21.65 MiB
डेटासेट का आकार :
2.90 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 9,086 |
'validation' | 929 |
- उदाहरण ( tfds.as_dataframe ):
bcc/bucc_zh
डाउनलोड आकार :
6.79 MiB
डेटासेट का आकार :
615.20 KiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,899 |
'validation' | 257 |
- उदाहरण ( tfds.as_dataframe ):
bcc/bucc_ru
डाउनलोड आकार :
39.44 MiB
डेटासेट का आकार :
6.36 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 14,435 |
'validation' | 2,374 |
- उदाहरण ( tfds.as_dataframe ):