- 설명 :
TREC(Text REtrieval Conference) 질문 분류 데이터 세트에는 교육 세트에 5500개의 레이블이 지정된 질문과 테스트 세트에 대한 또 다른 500개의 질문이 포함되어 있습니다. 데이터 세트에는 6개의 레이블, 47개의 레벨 2 레이블이 있습니다. 각 문장의 평균 길이는 10개, 어휘 크기는 8700개입니다. 데이터는 USC에서 발행한 4,500개의 영어 질문(Hovy et al., 2001), 소수의 희귀 클래스에 대해 수동으로 구성된 약 500개의 질문, 894개의 TREC 8 및 894개의 출처에서 수집되었습니다. TREC 9 질문 및 테스트 세트 역할을 하는 TREC 10의 500개 질문.
소스 코드 :
tfds.datasets.trec.Builder
버전 :
-
1.0.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
350.79 KiB
데이터 세트 크기 :
636.90 KiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 500 |
'train' | 5,452 |
- 기능 구조 :
FeaturesDict({
'label-coarse': ClassLabel(shape=(), dtype=int64, num_classes=6),
'label-fine': ClassLabel(shape=(), dtype=int64, num_classes=47),
'text': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
거친 레이블 | 클래스 레이블 | int64 | ||
라벨 벌금 | 클래스 레이블 | int64 | ||
텍스트 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{li-roth-2002-learning,
title = "Learning Question Classifiers",
author = "Li, Xin and
Roth, Dan",
booktitle = "{COLING} 2002: The 19th International Conference on Computational Linguistics",
year = "2002",
url = "https://www.aclweb.org/anthology/C02-1150",
}
@inproceedings{hovy-etal-2001-toward,
title = "Toward Semantics-Based Answer Pinpointing",
author = "Hovy, Eduard and
Gerber, Laurie and
Hermjakob, Ulf and
Lin, Chin-Yew and
Ravichandran, Deepak",
booktitle = "Proceedings of the First International Conference on Human Language Technology Research",
year = "2001",
url = "https://www.aclweb.org/anthology/H01-1069",
}