bucc

  • Mô tả :

Nhận biết câu song hành trong ngữ liệu so sánh. Với hai kho ngữ liệu đơn ngữ được phân chia thành câu, các hệ thống tham gia được kỳ vọng sẽ xác định các cặp câu là bản dịch của nhau.

Tác vụ khai thác BUCC là một tác vụ được chia sẻ về trích xuất câu song song từ hai kho ngữ liệu đơn ngữ với một tập hợp con của chúng được giả định là song song và đã có từ năm 2016. Đối với mỗi cặp ngôn ngữ, tác vụ được chia sẻ cung cấp một kho ngữ liệu đơn ngữ cho mỗi ngôn ngữ và một danh sách ánh xạ vàng chứa các cặp dịch đúng. Những cặp này là sự thật mặt đất. Nhiệm vụ là xây dựng một danh sách các cặp dịch từ kho ngữ liệu đơn ngữ. Danh sách được xây dựng được so sánh với thực tế cơ bản và được đánh giá theo thước đo F1.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nguồn_id Chữ sợi dây
nguồn_câu Chữ sợi dây
target_id Chữ sợi dây
target_sentence Chữ sợi dây
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (cấu hình mặc định)

  • Kích thước tải xuống : 29.30 MiB

  • Kích thước tập dữ liệu : 3.21 MiB

  • Chia tách :

Tách ra ví dụ
'test' 9.580
'validation' 1.038

bucc/bucc_fr

  • Kích thước tải xuống : 21.65 MiB

  • Kích thước tập dữ liệu : 2.90 MiB

  • Chia tách :

Tách ra ví dụ
'test' 9,086
'validation' 929

bucc/bucc_zh

  • Kích thước tải xuống : 6.79 MiB

  • Kích thước tập dữ liệu : 615.20 KiB

  • Chia tách :

Tách ra ví dụ
'test' 1.899
'validation' 257

bucc/bucc_ru

  • Kích thước tải xuống : 39.44 MiB

  • Kích thước tập dữ liệu : 6.36 MiB

  • Chia tách :

Tách ra ví dụ
'test' 14,435
'validation' 2.374