- 설명 :
40개 이상의 Wikipedia 언어 버전의 페이지에 대한 정리 텍스트는 엔터티에 해당합니다. 데이터 세트에는 언어별로 학습/개발/테스트 분할이 있습니다. 데이터 세트는 페이지 필터링을 통해 정리되어 명확성 페이지, 리디렉션 페이지, 삭제된 페이지 및 엔터티가 아닌 페이지를 제거합니다. 각 예에는 엔터티의 위키데이터 ID와 콘텐츠가 아닌 섹션과 구조화된 객체를 제거하는 페이지 처리 후의 전체 위키피디아 기사가 포함되어 있습니다. 41개의 단일 언어 모델과 2개의 다국어 모델을 포함하여 이 코퍼스에서 훈련된 언어 모델은 https://tfhub.dev/google/collections/wiki40b-lm/1 에서 찾을 수 있습니다.
추가 문서 : 코드 가 포함된 논문 탐색
소스 코드 :
tfds.text.Wiki40b
버전 :
-
1.3.0
(기본값): 릴리스 노트가 없습니다.
-
다운로드 크기 :
Unknown size
기능 구조 :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
텍스트 | 텍스트 | 끈 | ||
버전_ID | 텍스트 | 끈 | ||
wikidata_id | 텍스트 | 끈 |
감독되는 키 (
as_supervised
doc 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (기본 구성)
구성 설명 : en용 Wiki40B 데이터 세트
데이터세트 크기 :
9.91 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- 예 ( tfds.as_dataframe ):
위키40b/ar
구성 설명 : ar에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
833.20 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- 예 ( tfds.as_dataframe ):
wiki40b/zh-cn
구성 설명 : zh-cn용 Wiki40B 데이터세트.
데이터세트 크기 :
985.53 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- 예 ( tfds.as_dataframe ):
wiki40b/zh-tw
구성 설명 : zh-tw에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
986.45 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- 예 ( tfds.as_dataframe ):
위키40b/nl
구성 설명 : nl용 Wiki40B 데이터 세트.
데이터세트 크기 :
961.82 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- 예 ( tfds.as_dataframe ):
wiki40b/fr
구성 설명 : fr에 대한 Wiki40B 데이터 세트.
데이터세트 크기 :
3.37 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- 예 ( tfds.as_dataframe ):
wiki40b/de
구성 설명 : de에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
4.78 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- 예 ( tfds.as_dataframe ):
위키40b/it
구성 설명 : Wiki40B 데이터세트입니다.
데이터세트 크기 :
2.00 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- 예 ( tfds.as_dataframe ):
wiki40b/ja
구성 설명 : ja에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
2.19 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- 예 ( tfds.as_dataframe ):
wiki40b/ko
구성 설명 : ko에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
453.98 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- 예 ( tfds.as_dataframe ):
위키40b/pl
구성 설명 : pl용 Wiki40B 데이터 세트.
데이터세트 크기 :
1.03 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- 예 ( tfds.as_dataframe ):
위키40b/pt
구성 설명 : pt에 대한 Wiki40B 데이터 세트.
데이터세트 크기 :
1.08 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- 예 ( tfds.as_dataframe ):
위키40b/ru
구성 설명 : ru용 Wiki40B 데이터 세트
데이터세트 크기 :
4.13 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- 예 ( tfds.as_dataframe ):
wiki40b/es
구성 설명 : es용 Wiki40B 데이터 세트.
데이터세트 크기 :
2.70 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- 예 ( tfds.as_dataframe ):
wiki40b/일
구성 설명 : th에 대한 Wiki40B 데이터 세트.
데이터세트 크기 :
326.29 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- 예 ( tfds.as_dataframe ):
위키40b/tr
구성 설명 : tr에 대한 Wiki40B 데이터 세트.
데이터세트 크기 :
308.87 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- 예 ( tfds.as_dataframe ):
위키40b/bg
구성 설명 : bg에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
433.20 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- 예 ( tfds.as_dataframe ):
위키40b/ca
구성 설명 : ca.에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
753.00 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- 예 ( tfds.as_dataframe ):
위키40b/cs
구성 설명 : cs용 Wiki40B 데이터세트입니다.
데이터세트 크기 :
631.84 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- 예 ( tfds.as_dataframe ):
위키40b/다
구성 설명 : da에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
240.51 MiB
자동 캐시 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(학습)분할 :
나뉘다 | 예 |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- 예 ( tfds.as_dataframe ):
위키40b/el
구성 설명 : el에 대한 Wiki40B 데이터 세트.
데이터세트 크기 :
524.77 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- 예 ( tfds.as_dataframe ):
위키40b/et
구성 설명 : et.
데이터세트 크기 :
184.07 MiB
자동 캐시 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(학습)분할 :
나뉘다 | 예 |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- 예 ( tfds.as_dataframe ):
위키40b/fa
구성 설명 : fa용 Wiki40B 데이터 세트.
데이터세트 크기 :
482.55 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- 예 ( tfds.as_dataframe ):
위키40b/fi
구성 설명 : fi용 Wiki40B 데이터세트입니다.
데이터세트 크기 :
534.13 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- 예 ( tfds.as_dataframe ):
wiki40b/그
구성 설명 : 그에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
869.51 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- 예 ( tfds.as_dataframe ):
wiki40b/안녕하세요
구성 설명 : hi에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
277.56 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- 예 ( tfds.as_dataframe ):
wiki40b/시간
구성 설명 : hr용 Wiki40B 데이터세트
데이터세트 크기 :
235.58 MiB
자동 캐시 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(학습)분할 :
나뉘다 | 예 |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- 예 ( tfds.as_dataframe ):
wiki40b/hu
구성 설명 : hu에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
634.25 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- 예 ( tfds.as_dataframe ):
위키40b/id
구성 설명 : ID에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
334.06 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- 예 ( tfds.as_dataframe ):
위키40b/lt
구성 설명 : lt.에 대한 Wiki40B 데이터 세트.
데이터세트 크기 :
140.46 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- 예 ( tfds.as_dataframe ):
wiki40b/lv
구성 설명 : lv.에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
80.07 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- 예 ( tfds.as_dataframe ):
wiki40b/ms
구성 설명 : ms용 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
142.49 MiB
자동 캐시 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(학습)분할 :
나뉘다 | 예 |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- 예 ( tfds.as_dataframe ):
wiki40b/아니요
구성 설명 : no.에 대한 Wiki40B 데이터 세트
데이터세트 크기 :
382.03 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- 예 ( tfds.as_dataframe ):
위키40b/ro
구성 설명 : ro에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
319.68 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- 예 ( tfds.as_dataframe ):
위키40b/sk
구성 설명 : sk용 Wiki40B 데이터세트
데이터세트 크기 :
170.20 MiB
자동 캐시 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(학습)분할 :
나뉘다 | 예 |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- 예 ( tfds.as_dataframe ):
위키40b/sl
구성 설명 : sl용 Wiki40B 데이터 세트
데이터세트 크기 :
157.38 MiB
자동 캐시 ( 문서 ): 예(테스트, 검증),
shuffle_files=False
인 경우에만(학습)분할 :
나뉘다 | 예 |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- 예 ( tfds.as_dataframe ):
wiki40b/sr
구성 설명 : sr용 Wiki40B 데이터 세트
데이터세트 크기 :
582.20 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- 예 ( tfds.as_dataframe ):
위키40b/sv
구성 설명 : sv.에 대한 Wiki40B 데이터 세트입니다.
데이터세트 크기 :
613.62 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- 예 ( tfds.as_dataframe ):
위키40b/tl
구성 설명 : tl에 대한 Wiki40B 데이터 세트.
데이터세트 크기 :
29.04 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- 예 ( tfds.as_dataframe ):
wiki40b/uk
구성 설명 : 영국용 Wiki40B 데이터세트
데이터세트 크기 :
1.67 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- 예 ( tfds.as_dataframe ):
위키40b/vi
구성 설명 : vi용 Wiki40B 데이터 세트.
데이터세트 크기 :
497.70 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- 예 ( tfds.as_dataframe ):