bucc

  • বর্ণনা :

তুলনীয় কর্পোরাতে সমান্তরাল বাক্য সনাক্ত করা। দুটি বাক্য-বিভক্ত একভাষিক কর্পোরা দেওয়া, অংশগ্রহণকারী সিস্টেমগুলি একে অপরের অনুবাদ করা বাক্যগুলির জোড়া সনাক্ত করবে বলে আশা করা হয়।

BUCC মাইনিং টাস্ক হল দুটি একভাষিক কর্পোরা থেকে সমান্তরাল বাক্য নিষ্কাশনের একটি ভাগ করা কাজ যার একটি উপসেট সমান্তরাল বলে ধরে নেওয়া হয়েছে, এবং এটি 2016 সাল থেকে পাওয়া যাচ্ছে। প্রতিটি ভাষার জোড়ার জন্য, ভাগ করা কাজটি প্রতিটি ভাষার জন্য একটি একভাষিক কর্পাস প্রদান করে এবং সত্য অনুবাদ জোড়া ধারণকারী একটি স্বর্ণ ম্যাপিং তালিকা. এই জোড়া স্থল সত্য. কাজটি হল একভাষিক কর্পোরা থেকে অনুবাদ জোড়ার একটি তালিকা তৈরি করা। নির্মিত তালিকাটি স্থল সত্যের সাথে তুলনা করা হয় এবং F1 পরিমাপের পরিপ্রেক্ষিতে মূল্যায়ন করা হয়।

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
উৎস_আইডি পাঠ্য স্ট্রিং
উৎস_বাক্য পাঠ্য স্ট্রিং
টার্গেট_আইডি পাঠ্য স্ট্রিং
লক্ষ্য_বাক্য পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (ডিফল্ট কনফিগারেশন)

  • ডাউনলোড সাইজ : 29.30 MiB

  • ডেটাসেটের আকার : 3.21 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 9,580
'validation' 1,038

bucc/bucc_fr

  • ডাউনলোডের আকার : 21.65 MiB

  • ডেটাসেটের আকার : 2.90 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 9,086
'validation' 929

bucc/bucc_zh

  • ডাউনলোডের আকার : 6.79 MiB

  • ডেটাসেটের আকার : 615.20 KiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,899
'validation' 257

bucc/bucc_ru

  • ডাউনলোড আকার : 39.44 MiB

  • ডেটাসেটের আকার : 6.36 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 14,435
'validation' ২,৩৭৪