mlqa

  • 설명 :

MLQA(Multilingual Question Answering Dataset)는 다국어 질의 응답 성능을 평가하기 위한 벤치마크 데이터 세트입니다. 데이터 세트는 아랍어, 독일어, 스페인어, 영어, 힌디어, 베트남어, 중국어의 7개 언어로 구성됩니다.

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
답변 순서
답변/answer_start 텐서 int32
답변/텍스트 텍스트
문맥 텍스트
ID 텐서
질문 텍스트
제목 텍스트
@article{lewis2019mlqa,
  title={MLQA: Evaluating Cross-lingual Extractive Question Answering},
  author={Lewis, Patrick and Ouguz, Barlas and Rinott, Ruty and Riedel,   Sebastian and Schwenk, Holger},
  journal={arXiv preprint arXiv:1910.07475},
  year={2019}
}

mlqa/ar(기본 구성)

  • 구성 설명 : MLQA 'ar' 개발 및 테스트 분할.

  • 데이터 세트 크기 : 9.28 MiB

  • 분할 :

나뉘다
'test' 5,335
'validation' 517

mlqa/de

  • 구성 설명 : MLQA 'de' 개발 및 테스트 분할.

  • 데이터 세트 크기 : 5.06 MiB

  • 분할 :

나뉘다
'test' 4,517
'validation' 512

mlqa/en

  • 구성 설명 : MLQA 'en' 개발 및 테스트 분할.

  • 데이터 세트 크기 : 15.72 MiB

  • 분할 :

나뉘다
'test' 11,590
'validation' 1,148

mlqa/es

  • 구성 설명 : MLQA 'es' 개발 및 테스트 분할.

  • 데이터 세트 크기 : 5.09 MiB

  • 분할 :

나뉘다
'test' 5,253
'validation' 500

mlqa/hi

  • 구성 설명 : MLQA 'hi' 개발 및 테스트 분할.

  • 데이터 세트 크기 : 12.83 MiB

  • 분할 :

나뉘다
'test' 4,918
'validation' 507

mlqa/vi

  • 구성 설명 : MLQA 'vi' 개발 및 테스트 분할.

  • 데이터 세트 크기 : 8.77 MiB

  • 분할 :

나뉘다
'test' 5,495
'validation' 511

mlqa/zh

  • 구성 설명 : MLQA 'zh' 개발 및 테스트 분할.

  • 데이터 세트 크기 : 5.13 MiB

  • 분할 :

나뉘다
'test' 5,137
'validation' 504