- বর্ণনা :
তুলনীয় কর্পোরাতে সমান্তরাল বাক্য সনাক্ত করা। দুটি বাক্য-বিভক্ত একভাষিক কর্পোরা দেওয়া, অংশগ্রহণকারী সিস্টেমগুলি একে অপরের অনুবাদ করা বাক্যগুলির জোড়া সনাক্ত করবে বলে আশা করা হয়।
BUCC মাইনিং টাস্ক হল দুটি একভাষিক কর্পোরা থেকে সমান্তরাল বাক্য নিষ্কাশনের একটি ভাগ করা কাজ যার একটি উপসেট সমান্তরাল বলে ধরে নেওয়া হয়েছে, এবং এটি 2016 সাল থেকে পাওয়া যাচ্ছে। প্রতিটি ভাষার জোড়ার জন্য, ভাগ করা কাজটি প্রতিটি ভাষার জন্য একটি একভাষিক কর্পাস প্রদান করে এবং সত্য অনুবাদ জোড়া ধারণকারী একটি স্বর্ণ ম্যাপিং তালিকা. এই জোড়া স্থল সত্য. কাজটি হল একভাষিক কর্পোরা থেকে অনুবাদ জোড়ার একটি তালিকা তৈরি করা। নির্মিত তালিকাটি স্থল সত্যের সাথে তুলনা করা হয় এবং F1 পরিমাপের পরিপ্রেক্ষিতে মূল্যায়ন করা হয়।
উত্স কোড :
tfds.datasets.bucc.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বৈশিষ্ট্য গঠন :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উৎস_আইডি | পাঠ্য | স্ট্রিং | ||
উৎস_বাক্য | পাঠ্য | স্ট্রিং | ||
টার্গেট_আইডি | পাঠ্য | স্ট্রিং | ||
লক্ষ্য_বাক্য | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (ডিফল্ট কনফিগারেশন)
ডাউনলোড সাইজ :
29.30 MiB
ডেটাসেটের আকার :
3.21 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 9,580 |
'validation' | 1,038 |
- উদাহরণ ( tfds.as_dataframe ):
bucc/bucc_fr
ডাউনলোডের আকার :
21.65 MiB
ডেটাসেটের আকার :
2.90 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 9,086 |
'validation' | 929 |
- উদাহরণ ( tfds.as_dataframe ):
bucc/bucc_zh
ডাউনলোডের আকার :
6.79 MiB
ডেটাসেটের আকার :
615.20 KiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,899 |
'validation' | 257 |
- উদাহরণ ( tfds.as_dataframe ):
bucc/bucc_ru
ডাউনলোড আকার :
39.44 MiB
ডেটাসেটের আকার :
6.36 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 14,435 |
'validation' | ২,৩৭৪ |
- উদাহরণ ( tfds.as_dataframe ):