- คำอธิบาย :
การระบุประโยคคู่ขนานในหน่วยเปรียบเทียบ เมื่อพิจารณาจากองค์กรภาษาเดียวที่แยกประโยคออกเป็นสองประโยค ระบบผู้เข้าร่วมคาดว่าจะระบุคู่ของประโยคที่เป็นการแปลของกันและกัน
งานการขุด BUCC เป็นงานที่ใช้ร่วมกันในการแยกประโยคคู่ขนานจากคลังข้อมูลภาษาเดียวสองรายการโดยมีส่วนย่อยที่ถือว่าคู่ขนานกัน และมีให้บริการตั้งแต่ปี 2559 สำหรับแต่ละคู่ภาษา งานที่ใช้ร่วมกันจะจัดเตรียมคลังข้อมูลภาษาเดียวสำหรับแต่ละภาษาและ รายการการจับคู่ทองคำที่มีคู่การแปลจริง คู่เหล่านี้เป็นความจริงพื้นฐาน ภารกิจคือสร้างรายการคู่การแปลจากองค์กรภาษาเดียว รายการที่สร้างขึ้นจะถูกเปรียบเทียบกับความจริงพื้นฐาน และประเมินในแง่ของการวัด F1
หน้าแรก : https://comparable.limsi.fr/bucc2018/
รหัสแหล่งที่มา :
tfds.datasets.bucc.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
แคชอัตโนมัติ ( เอกสาร ): ใช่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
รหัสแหล่งที่มา | ข้อความ | สตริง | ||
source_sentence | ข้อความ | สตริง | ||
target_id | ข้อความ | สตริง | ||
target_sentence | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (การกำหนดค่าเริ่มต้น)
ขนาดการดาวน์โหลด :
29.30 MiB
ขนาดชุดข้อมูล :
3.21 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 9,580 |
'validation' | 1,038 |
- ตัวอย่าง ( tfds.as_dataframe ):
บัค/bucc_fr
ขนาดการดาวน์โหลด :
21.65 MiB
ขนาดชุดข้อมูล :
2.90 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 9,086 |
'validation' | 929 |
- ตัวอย่าง ( tfds.as_dataframe ):
บัค/bucc_zh
ขนาดการดาวน์โหลด :
6.79 MiB
ขนาดชุดข้อมูล :
615.20 KiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,899 |
'validation' | 257 |
- ตัวอย่าง ( tfds.as_dataframe ):
บัค/bucc_ru
ขนาดการดาวน์โหลด :
39.44 MiB
ขนาดชุดข้อมูล :
6.36 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 14,435 |
'validation' | 2,374 |
- ตัวอย่าง ( tfds.as_dataframe ):