- 설명 :
TyDi QA는 204K 질문-답변 쌍이 있는 11개의 유형학적으로 다양한 언어를 다루는 질문 응답 데이터 세트입니다. TyDi QA의 언어는 유형학(각 언어가 표현하는 언어적 특징 집합)과 관련하여 다양하므로 이 집합에서 잘 작동하는 모델이 전 세계 많은 언어에 걸쳐 일반화될 것으로 기대합니다. 영어 전용 말뭉치에서는 볼 수 없는 언어 현상이 포함되어 있습니다. 현실적인 정보 탐색 작업을 제공하고 프라이밍 효과를 피하기 위해 답을 알고 싶지만 아직 답을 모르는 사람들이 질문을 작성하고(SQuAD 및 그 자손과 달리) 데이터는 각 언어로 직접 수집됩니다. 번역을 사용하지 않습니다(MLQA 및 XQuAD와 달리).
교육 분할:
'train': 원래 언어로 레이블이 지정된 교육 데이터가 있는 원본 TyDi QA 논문[ https://arxiv.org/abs/2003.05002 ]의 GoldP 작업입니다.
'translate-train-*': 이러한 분할은 XTREME 논문[ https://arxiv.org/abs/2003.11080 ]의 translate-train 기준선에 사용된 영어에서 각 대상 언어로의 자동 번역입니다. 이는 원래 언어 데이터를 사용할 수 없고 시스템 빌더가 레이블이 지정된 영어 데이터와 기존 기계 번역 시스템에 의존해야 하는 전이 학습 시나리오를 시뮬레이션하기 위해 영어가 아닌 TyDiQA-GoldP 교육 데이터를 의도적으로 무시합니다.
일반적으로 기차 또는 번역-열 분할 중 하나를 사용해야 하지만 둘 다 사용할 수는 없습니다.
구성 설명 : Gold Passage(GoldP) 작업( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
소스 코드 :
tfds.question_answering.TydiQA
버전 :
-
3.0.0
(기본값): 컨텍스트 공백 제거로 인해 답변 범위가 잘못 정렬되는 여러 예의 문제를 수정합니다. 이 변경 사항은 약 25%의 훈련 및 개발 예제에 영향을 미칩니다.
-
다운로드 크기 :
121.30 MiB
데이터 세트 크기 :
98.35 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 49,881 |
'translate-train-ar' | 3,661 |
'translate-train-bn' | 3,585 |
'translate-train-fi' | 3,670 |
'translate-train-id' | 3,667 |
'translate-train-ko' | 3,607 |
'translate-train-ru' | 3,394 |
'translate-train-sw' | 3,622 |
'translate-train-te' | 3,658 |
'validation' | 5,077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- 기능 구조 :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
답변 | 순서 | |||
답변/answer_start | 텐서 | int32 | ||
답변/텍스트 | 텍스트 | 끈 | ||
문맥 | 텍스트 | 끈 | ||
ID | 텐서 | 끈 | ||
의문 | 텍스트 | 끈 | ||
제목 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}