벅

설명 :

비교 말뭉치에서 병렬 문장 식별. 두 개의 문장 분할 단일 언어 코퍼스가 주어지면 참가자 시스템은 서로 번역되는 문장 쌍을 식별할 것으로 예상됩니다.

BUCC 마이닝 작업은 2016년부터 사용 가능한 하위 집합이 병렬로 가정된 두 개의 단일 언어 말뭉치에서 병렬 문장 추출에 대한 공유 작업입니다. 각 언어 쌍에 대해 공유 작업은 각 언어에 대한 단일 언어 말뭉치를 제공하고 진정한 번역 쌍을 포함하는 골드 매핑 목록. 이 쌍은 지상 진실입니다. 작업은 단일 언어 말뭉치에서 번역 쌍 목록을 구성하는 것입니다. 구성된 목록은 ground truth와 비교되고 F1 척도로 평가됩니다.

홈페이지 : https://comparable.limsi.fr/bucc2018/
소스 코드 : tfds.datasets.bucc.Builder
버전 :
- 1.0.0 (기본값): 최초 릴리스.
자동 캐시 ( 문서 ): 예
기능 구조 :

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	D타입
	풍모Dict
source_id	텍스트	끈
source_sentence	텍스트	끈
target_id	텍스트	끈
target_sentence	텍스트	끈

감독된 키 ( as_supervised 문서 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

buc/bucc_de(기본 구성)

다운로드 크기 : 29.30 MiB
데이터 세트 크기 : 3.21 MiB
분할 :

나뉘다	예
`'test'`	9,580
`'validation'`	1,038

예 ( tfds.as_dataframe ):

뷰크/뷰크_fr

다운로드 크기 : 21.65 MiB
데이터 세트 크기 : 2.90 MiB
분할 :

나뉘다	예
`'test'`	9,086
`'validation'`	929

예 ( tfds.as_dataframe ):

버크/버크_zh

다운로드 크기 : 6.79 MiB
데이터 세트 크기 : 615.20 KiB
분할 :

나뉘다	예
`'test'`	1,899
`'validation'`	257

예 ( tfds.as_dataframe ):

부크/부크_루

다운로드 크기 : 39.44 MiB
데이터 세트 크기 : 6.36 MiB
분할 :

나뉘다	예
`'test'`	14,435
`'validation'`	2,374

예 ( tfds.as_dataframe ):

벅 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

buc/bucc_de(기본 구성)

뷰크/뷰크_fr

버크/버크_zh

부크/부크_루

벅