- 설명 :
비교 말뭉치에서 병렬 문장 식별. 두 개의 문장 분할 단일 언어 코퍼스가 주어지면 참가자 시스템은 서로 번역되는 문장 쌍을 식별할 것으로 예상됩니다.
BUCC 마이닝 작업은 2016년부터 사용 가능한 하위 집합이 병렬로 가정된 두 개의 단일 언어 말뭉치에서 병렬 문장 추출에 대한 공유 작업입니다. 각 언어 쌍에 대해 공유 작업은 각 언어에 대한 단일 언어 말뭉치를 제공하고 진정한 번역 쌍을 포함하는 골드 매핑 목록. 이 쌍은 지상 진실입니다. 작업은 단일 언어 말뭉치에서 번역 쌍 목록을 구성하는 것입니다. 구성된 목록은 ground truth와 비교되고 F1 척도로 평가됩니다.
소스 코드 :
tfds.datasets.bucc.Builder
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
자동 캐시 ( 문서 ): 예
기능 구조 :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
source_id | 텍스트 | 끈 | ||
source_sentence | 텍스트 | 끈 | ||
target_id | 텍스트 | 끈 | ||
target_sentence | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
buc/bucc_de(기본 구성)
다운로드 크기 :
29.30 MiB
데이터 세트 크기 :
3.21 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 9,580 |
'validation' | 1,038 |
- 예 ( tfds.as_dataframe ):
뷰크/뷰크_fr
다운로드 크기 :
21.65 MiB
데이터 세트 크기 :
2.90 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 9,086 |
'validation' | 929 |
- 예 ( tfds.as_dataframe ):
버크/버크_zh
다운로드 크기 :
6.79 MiB
데이터 세트 크기 :
615.20 KiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,899 |
'validation' | 257 |
- 예 ( tfds.as_dataframe ):
부크/부크_루
다운로드 크기 :
39.44 MiB
데이터 세트 크기 :
6.36 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 14,435 |
'validation' | 2,374 |
- 예 ( tfds.as_dataframe ):