- 설명 :
statmt.org의 데이터를 기반으로 데이터 세트를 번역합니다.
버전은 여러 데이터 소스의 조합을 사용하여 서로 다른 연도에 대해 존재합니다. 기본 wmt_translate
를 사용하면 사용자 정의 tfds.translate.wmt.WmtConfig
를 생성하여 고유한 데이터/언어 쌍을 선택하는 고유한 구성을 생성할 수 있습니다.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
소스 코드 :
tfds.translate.Wmt16Translate
버전 :
-
1.0.0
(기본값): 릴리스 정보가 없습니다.
-
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
여기에 있는 wmt 구성 중 일부는 수동 다운로드가 필요합니다. 다운로드해야 하는 정확한 경로(및 파일 이름)를 보려면 wmt.py를 살펴보십시오.그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en(기본 구성)
구성 설명 : WMT 2016 cs-en 번역 작업 데이터 세트.
다운로드 크기 :
1.57 GiB
데이터세트 크기 :
7.56 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,999 |
'train' | 52,335,651 |
'validation' | 2,656 |
- 기능 구조 :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
번역 | ||||
CS | 텍스트 | 끈 | ||
ko | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('cs', 'en')
예 ( tfds.as_dataframe ):
wmt16_translate/de-en
구성 설명 : WMT 2016 de-en 번역 작업 데이터 세트.
다운로드 크기 :
1.57 GiB
데이터세트 크기 :
1.38 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,999 |
'train' | 4,548,885 |
'validation' | 2,169 |
- 기능 구조 :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
번역 | ||||
드 | 텍스트 | 끈 | ||
ko | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('de', 'en')
예 ( tfds.as_dataframe ):
wmt16_translate/fi-en
구성 설명 : WMT 2016 fi-en 번역 작업 데이터 세트.
다운로드 크기 :
260.51 MiB
데이터 세트 크기 :
624.31 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,000 |
'train' | 2,073,394 |
'validation' | 1,370 |
- 기능 구조 :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
번역 | ||||
ko | 텍스트 | 끈 | ||
파이 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):('fi', 'en')
예 ( tfds.as_dataframe ):
wmt16_translate/ro-en
구성 설명 : WMT 2016 ro-en 번역 작업 데이터 세트.
다운로드 크기 :
273.83 MiB
데이터 세트 크기 :
194.35 MiB
자동 캐싱 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(훈련)분할 :
나뉘다 | 예 |
---|---|
'test' | 1,999 |
'train' | 610,320 |
'validation' | 1,999 |
- 기능 구조 :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
번역 | ||||
ko | 텍스트 | 끈 | ||
로 | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('ro', 'en')
예 ( tfds.as_dataframe ):
wmt16_translate/ru-en
구성 설명 : WMT 2016 ru-en 번역 작업 데이터 세트.
다운로드 크기 :
993.38 MiB
데이터 세트 크기 :
854.44 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,998 |
'train' | 2,516,162 |
'validation' | 2,818 |
- 기능 구조 :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
번역 | ||||
ko | 텍스트 | 끈 | ||
루 | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('ru', 'en')
예 ( tfds.as_dataframe ):
wmt16_translate/tr-en
구성 설명 : WMT 2016 tr-en 번역 작업 데이터 세트.
다운로드 크기 :
59.32 MiB
데이터 세트 크기 :
63.21 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 3,000 |
'train' | 205,756 |
'validation' | 1,001 |
- 기능 구조 :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
번역 | ||||
ko | 텍스트 | 끈 | ||
트 | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('tr', 'en')
예 ( tfds.as_dataframe ):