- 설명 :
XQuAD(Cross-lingual Question Answering Dataset)는 교차 언어 질문 응답 성능을 평가하기 위한 벤치마크 데이터 세트입니다. 데이터 세트는 SQuAD v1.1 개발 세트(Rajpurkar et al., 2016)의 240개 단락 및 1190개 질문-답변 쌍의 하위 집합과 스페인어, 독일어, 그리스어, 러시아어, 터키어 등 10개 언어로의 전문 번역으로 구성됩니다. , 아랍어, 베트남어, 태국어, 중국어 및 힌디어. 결과적으로 데이터 세트는 11개 언어에 걸쳐 완전히 병렬입니다. 기본 제로샷 설정에서 XQuAD를 실행하려면 https://www.tensorflow.org/datasets/catalog/squad 에서 SQuAD v1.1 교육 및 검증 데이터를 사용하세요.
또한 XTREME(Hu et al., 2020)의 각 비영어 언어에 대한 "translate-train", "translate-dev" 및 "translate-test" 분할을 포함합니다. "translate-train" 또는 "translate-test" 설정에서 XQuAD를 실행하는 데 사용할 수 있습니다.
버전 :
-
3.0.0
(기본값): 컨텍스트 공백 제거로 인해 답변 범위가 잘못 정렬되는 여러 예의 문제를 수정합니다. 이 변경 사항은 테스트 예제의 약 14%에 영향을 미칩니다.
-
기능 구조 :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
답변 | 순서 | |||
답변/answer_start | 텐서 | int32 | ||
답변/텍스트 | 텍스트 | 끈 | ||
문맥 | 텍스트 | 끈 | ||
ID | 텐서 | 끈 | ||
의문 | 텍스트 | 끈 | ||
제목 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar(기본 구성)
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'ar' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
420.97 MiB
데이터 세트 크기 :
134.83 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,541 |
'translate-test' | 1,151 |
'translate-train' | 86,787 |
- 예 ( tfds.as_dataframe ):
xquad/de
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'de' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
127.04 MiB
데이터 세트 크기 :
98.80 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,371 |
'translate-test' | 1,168 |
'translate-train' | 82,603 |
- 예 ( tfds.as_dataframe ):
x쿼드/엘
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'el' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
499.40 MiB
데이터 세트 크기 :
157.90 MiB
자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트),
shuffle_files=False
인 경우에만(번역-훈련)분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,100 |
'translate-test' | 1,182 |
'translate-train' | 79,946 |
- 예 ( tfds.as_dataframe ):
xquad/es
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'es' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
138.41 MiB
데이터 세트 크기 :
104.96 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,566 |
'translate-test' | 1,188 |
'translate-train' | 87,488 |
- 예 ( tfds.as_dataframe ):
x쿼드/하이
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'hi' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
472.23 MiB
데이터 세트 크기 :
207.85 MiB
자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트),
shuffle_files=False
인 경우에만(번역-훈련)분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,536 |
'translate-test' | 1,184 |
'translate-train' | 85,804 |
- 예 ( tfds.as_dataframe ):
xquad/ru
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'ru' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
513.80 MiB
데이터 세트 크기 :
159.38 MiB
자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트),
shuffle_files=False
인 경우에만(번역-훈련)분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,469 |
'translate-test' | 1,190 |
'translate-train' | 84,869 |
- 예 ( tfds.as_dataframe ):
x쿼드/일
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD '번째' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
461.54 MiB
데이터 세트 크기 :
199.57 MiB
자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트),
shuffle_files=False
인 경우에만(번역-훈련)분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,516 |
'translate-test' | 1,157 |
'translate-train' | 85,846 |
- 예 ( tfds.as_dataframe ):
xquad/tr
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'tr' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
151.08 MiB
데이터 세트 크기 :
97.56 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,535 |
'translate-test' | 1,112 |
'translate-train' | 86,511 |
- 예 ( tfds.as_dataframe ):
xquad/vi
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'vi' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
218.09 MiB
데이터 세트 크기 :
120.03 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,555 |
'translate-test' | 1,178 |
'translate-train' | 87,187 |
- 예 ( tfds.as_dataframe ):
xquad/zh
구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'zh' 테스트 분할(Hu et al., 2020).
다운로드 크기 :
174.57 MiB
데이터 세트 크기 :
80.79 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
'translate-dev' | 10,475 |
'translate-test' | 1,186 |
'translate-train' | 85,700 |
- 예 ( tfds.as_dataframe ):
xquad/ko
구성 설명 : XQuAD 'en' 테스트 분할.
다운로드 크기 :
595.10 KiB
데이터 세트 크기 :
1.19 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,190 |
- 예 ( tfds.as_dataframe ):