엑스쿼드

  • 설명 :

XQuAD(Cross-lingual Question Answering Dataset)는 교차 언어 질문 응답 성능을 평가하기 위한 벤치마크 데이터 세트입니다. 데이터 세트는 SQuAD v1.1 개발 세트(Rajpurkar et al., 2016)의 240개 단락 및 1190개 질문-답변 쌍의 하위 집합과 스페인어, 독일어, 그리스어, 러시아어, 터키어 등 10개 언어로의 전문 번역으로 구성됩니다. , 아랍어, 베트남어, 태국어, 중국어 및 힌디어. 결과적으로 데이터 세트는 11개 언어에 걸쳐 완전히 병렬입니다. 기본 제로샷 설정에서 XQuAD를 실행하려면 https://www.tensorflow.org/datasets/catalog/squad 에서 SQuAD v1.1 교육 및 검증 데이터를 사용하세요.

또한 XTREME(Hu et al., 2020)의 각 비영어 언어에 대한 "translate-train", "translate-dev" 및 "translate-test" 분할을 포함합니다. "translate-train" 또는 "translate-test" 설정에서 XQuAD를 실행하는 데 사용할 수 있습니다.

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
답변 순서
답변/answer_start 텐서 int32
답변/텍스트 텍스트
문맥 텍스트
ID 텐서
의문 텍스트
제목 텍스트
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar(기본 구성)

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'ar' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 420.97 MiB

  • 데이터 세트 크기 : 134.83 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad/de

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'de' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 127.04 MiB

  • 데이터 세트 크기 : 98.80 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

x쿼드/엘

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'el' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 499.40 MiB

  • 데이터 세트 크기 : 157.90 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트), shuffle_files=False 인 경우에만(번역-훈련)

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad/es

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'es' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 138.41 MiB

  • 데이터 세트 크기 : 104.96 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

x쿼드/하이

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'hi' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 472.23 MiB

  • 데이터 세트 크기 : 207.85 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트), shuffle_files=False 인 경우에만(번역-훈련)

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad/ru

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'ru' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 513.80 MiB

  • 데이터 세트 크기 : 159.38 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트), shuffle_files=False 인 경우에만(번역-훈련)

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

x쿼드/일

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD '번째' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 461.54 MiB

  • 데이터 세트 크기 : 199.57 MiB

  • 자동 캐시 ( 문서 ): 예(테스트, 번역-개발, 번역-테스트), shuffle_files=False 인 경우에만(번역-훈련)

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad/tr

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'tr' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 151.08 MiB

  • 데이터 세트 크기 : 97.56 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad/vi

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'vi' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 218.09 MiB

  • 데이터 세트 크기 : 120.03 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad/zh

  • 구성 설명 : XTREME에서 기계 번역된 translate-train/translate-dev/translate-test 분할이 포함된 XQuAD 'zh' 테스트 분할(Hu et al., 2020).

  • 다운로드 크기 : 174.57 MiB

  • 데이터 세트 크기 : 80.79 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad/ko

  • 구성 설명 : XQuAD 'en' 테스트 분할.

  • 다운로드 크기 : 595.10 KiB

  • 데이터 세트 크기 : 1.19 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,190