- 설명 :
Stanford Question Answering Dataset(SQuAD)는 Wikipedia 기사 세트에서 크라우드 워커가 제기한 질문으로 구성된 읽기 이해 데이터 세트입니다. 여기서 모든 질문에 대한 답변은 해당 읽기 구절 또는 질문의 텍스트 세그먼트 또는 범위입니다. 답이 없을 수도 있습니다.
소스 코드 :
tfds.datasets.squad.Builder
버전 :
-
3.0.0
(기본값): 컨텍스트 공백 제거로 인해 답변 범위가 잘못 정렬되는 소수의 예(19) 문제를 수정합니다.
-
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
squad/v1.1(기본 구성)
구성 설명 : SQUAD 버전 1.1.0
다운로드 크기 :
33.51 MiB
데이터 세트 크기 :
94.06 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 87,599 |
'validation' | 10,570 |
- 기능 구조 :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
대답 | 순서 | |||
답변/answer_start | 텐서 | int32 | ||
답변/텍스트 | 텍스트 | 끈 | ||
문맥 | 텍스트 | 끈 | ||
ID | 텐서 | 끈 | ||
문제 | 텍스트 | 끈 | ||
제목 | 텍스트 | 끈 |
- 예 ( tfds.as_dataframe ):
분대/v2.0
구성 설명 : SQUAD 버전 2.0.0
다운로드 크기 :
44.34 MiB
데이터 세트 크기 :
148.54 MiB
자동 캐시 됨( 문서 ): 예(검증),
shuffle_files=False
인 경우에만(훈련)분할 :
나뉘다 | 예 |
---|---|
'train' | 130,319 |
'validation' | 11,873 |
- 기능 구조 :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
대답 | 순서 | |||
답변/answer_start | 텐서 | int32 | ||
답변/텍스트 | 텍스트 | 끈 | ||
문맥 | 텍스트 | 끈 | ||
ID | 텐서 | 끈 | ||
불가능하다 | 텐서 | 부울 | ||
그럴듯한_답변 | 순서 | |||
그럴듯한_답변/answer_start | 텐서 | int32 | ||
그럴듯한_답변/텍스트 | 텍스트 | 끈 | ||
문제 | 텍스트 | 끈 | ||
제목 | 텍스트 | 끈 |
- 예 ( tfds.as_dataframe ):