- Mô tả :
Nhận biết câu song hành trong ngữ liệu so sánh. Với hai kho ngữ liệu đơn ngữ được phân chia thành câu, các hệ thống tham gia được kỳ vọng sẽ xác định các cặp câu là bản dịch của nhau.
Tác vụ khai thác BUCC là một tác vụ được chia sẻ về trích xuất câu song song từ hai kho ngữ liệu đơn ngữ với một tập hợp con của chúng được giả định là song song và đã có từ năm 2016. Đối với mỗi cặp ngôn ngữ, tác vụ được chia sẻ cung cấp một kho ngữ liệu đơn ngữ cho mỗi ngôn ngữ và một danh sách ánh xạ vàng chứa các cặp dịch đúng. Những cặp này là sự thật mặt đất. Nhiệm vụ là xây dựng một danh sách các cặp dịch từ kho ngữ liệu đơn ngữ. Danh sách được xây dựng được so sánh với thực tế cơ bản và được đánh giá theo thước đo F1.
Trang chủ : https://comparable.limsi.fr/bucc2018/
Mã nguồn :
tfds.datasets.bucc.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Tự động lưu vào bộ đệm ( tài liệu ): Có
Cấu trúc tính năng :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
nguồn_id | Chữ | sợi dây | ||
nguồn_câu | Chữ | sợi dây | ||
target_id | Chữ | sợi dây | ||
target_sentence | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (cấu hình mặc định)
Kích thước tải xuống :
29.30 MiB
Kích thước tập dữ liệu :
3.21 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 9.580 |
'validation' | 1.038 |
- Ví dụ ( tfds.as_dataframe ):
bucc/bucc_fr
Kích thước tải xuống :
21.65 MiB
Kích thước tập dữ liệu :
2.90 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 9,086 |
'validation' | 929 |
- Ví dụ ( tfds.as_dataframe ):
bucc/bucc_zh
Kích thước tải xuống :
6.79 MiB
Kích thước tập dữ liệu :
615.20 KiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.899 |
'validation' | 257 |
- Ví dụ ( tfds.as_dataframe ):
bucc/bucc_ru
Kích thước tải xuống :
39.44 MiB
Kích thước tập dữ liệu :
6.36 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 14,435 |
'validation' | 2.374 |
- Ví dụ ( tfds.as_dataframe ):