para_crawl

  • 설명 :

공식 유럽 언어를 위한 웹스케일 병렬 말뭉치.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl/enbg(기본 구성)

  • 구성 설명 : 영어에서 bg로 번역 데이터 세트.

  • 다운로드 크기 : 98.94 MiB

  • 데이터 세트 크기 : 362.46 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 1,039,885
  • 기능 구조 :
Translation({
    'bg': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
bg 텍스트
ko 텍스트

para_crawl/encs

  • 구성 설명 : 영어에서 cs로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 187.31 MiB

  • 데이터 세트 크기 : 666.34 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 2,981,949
  • 기능 구조 :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
CS 텍스트
ko 텍스트

para_crawl/enda

  • 구성 설명 : 영어에서 da로 번역 데이터 세트.

  • 다운로드 크기 : 174.34 MiB

  • 데이터 세트 크기 : 619.77 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 2,414,895
  • 기능 구조 :
Translation({
    'da': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
텍스트
ko 텍스트

para_crawl/ende

  • 구성 설명 : 영어에서 de로의 번역 데이터 세트.

  • 다운로드 크기 : 1.22 GiB

  • 데이터세트 크기 : 4.04 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 16,264,448
  • 기능 구조 :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
텍스트
ko 텍스트

para_crawl/enel

  • 구성 설명 : 영어에서 엘로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 184.59 MiB

  • 데이터 세트 크기 : 698.75 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 1,985,233
  • 기능 구조 :
Translation({
    'el': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
엘자 텍스트
ko 텍스트

para_crawl/enes

  • 구성 설명 : 영어에서 es로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 1.82 GiB

  • 데이터세트 크기 : 6.23 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 21,987,267
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'es': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트

para_crawl/enet

  • 구성 설명 : 영어에서 et로 번역 데이터 세트.

  • 다운로드 크기 : 66.91 MiB

  • 데이터 세트 크기 : 209.16 MiB

  • 자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만

  • 분할 :

나뉘다
'train' 853,422
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'et': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트

para_crawl/enfi

  • 구성 설명 : 영어에서 fi로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 151.83 MiB

  • 데이터 세트 크기 : 543.85 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 2,156,069
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
파이 텍스트

para_crawl/enfr

  • 구성 설명 : 영어에서 fr로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 2.63 GiB

  • 데이터세트 크기 : 9.04 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 31,374,161
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
정말로 텍스트

para_crawl/enga

  • 구성 설명 : 영어에서 ga로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 28.03 MiB

  • 데이터 세트 크기 : 107.09 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 357,399
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'ga': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
조지아 텍스트

para_crawl/enhr

  • 구성 설명 : 영어에서 시간으로 번역 데이터 세트.

  • 다운로드 크기 : 80.97 MiB

  • 데이터 세트 크기 : 256.37 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 1,002,053
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'hr': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
시간 텍스트

para_crawl/enhu

  • 구성 설명 : 영어에서 hu로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 114.24 MiB

  • 데이터 세트 크기 : 421.40 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 1,901,342
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'hu': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트

para_crawl/enit

  • 구성 설명 : 영어에서 영어로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 1017.30 MiB

  • 데이터세트 크기 : 3.36 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 12,162,239
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'it': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
그것 텍스트

para_crawl/enlt

  • 구성 설명 : 영어에서 lt로 번역 데이터 세트.

  • 다운로드 크기 : 63.28 MiB

  • 데이터 세트 크기 : 204.70 MiB

  • 자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만

  • 분할 :

나뉘다
'train' 844,643
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
LT 텍스트

para_crawl/enlv

  • 구성 설명 : 영어에서 lv로 번역 데이터 세트.

  • 다운로드 크기 : 45.17 MiB

  • 데이터 세트 크기 : 147.09 MiB

  • 자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만

  • 분할 :

나뉘다
'train' 553,060
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
LV 텍스트

para_crawl/enmt

  • 구성 설명 : 영어에서 mt로 번역 데이터 세트.

  • 다운로드 크기 : 18.15 MiB

  • 데이터 세트 크기 : 54.36 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 195,502
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'mt': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트

para_crawl/ennl

  • 구성 설명 : 영어에서 nl로의 번역 데이터 세트.

  • 다운로드 크기 : 400.63 MiB

  • 데이터세트 크기 : 1.40 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 5,659,268
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'nl': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
nl 텍스트

para_crawl/enpl

  • 구성 설명 : 영어에서 PL로 번역 데이터 세트.

  • 다운로드 크기 : 257.90 MiB

  • 데이터 세트 크기 : 885.63 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 3,503,276
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'pl': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
제발 텍스트

para_crawl/enpt

  • 구성 설명 : 영어에서 태평양 표준시로 번역 데이터 세트.

  • 다운로드 크기 : 608.62 MiB

  • 데이터세트 크기 : 2.05 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 8,141,940
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
태평양 표준시 텍스트

para_crawl/엔로

  • 구성 설명 : 영어에서 ro로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 153.24 MiB

  • 데이터 세트 크기 : 534.34 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 1,952,043
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트

para_crawl/ensk

  • 구성 설명 : 영어에서 sk로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 96.61 MiB

  • 데이터 세트 크기 : 352.91 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 1,591,831
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'sk': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
sk 텍스트

para_crawl/ensl

  • 구성 설명 : 영어에서 sl로 번역 데이터 세트.

  • 다운로드 크기 : 62.02 MiB

  • 데이터 세트 크기 : 187.66 MiB

  • 자동 캐시 됨( 문서 ): shuffle_files=False (트레인)인 경우에만

  • 분할 :

나뉘다
'train' 660,161
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'sl': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
sl 텍스트

para_crawl/ensv

  • 구성 설명 : 영어에서 sv로의 번역 데이터 세트입니다.

  • 다운로드 크기 : 262.76 MiB

  • 데이터 세트 크기 : 905.72 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 3,476,729
  • 기능 구조 :
Translation({
    'en': Text(shape=(), dtype=string),
    'sv': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
번역
ko 텍스트
텍스트