- 설명 :
CLEVR은 다양한 시각적 추론 능력을 테스트하는 진단 데이터세트입니다. 여기에는 최소한의 편견이 포함되어 있으며 각 질문에 필요한 추론의 종류를 설명하는 자세한 주석이 있습니다.
추가 문서 : 코드 가 포함된 논문 탐색
소스 코드 :
tfds.datasets.clevr.Builder
버전 :
-
3.0.0
: 릴리스 노트가 없습니다. -
3.1.0
(기본값): 질문/답변 텍스트를 추가합니다.
-
다운로드 크기 :
17.72 GiB
데이터세트 크기 :
17.75 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 15,000 |
'train' | 70,000 |
'validation' | 15,000 |
- 기능 구조 :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'objects': Sequence({
'3d_coords': Tensor(shape=(3,), dtype=float32),
'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pixel_coords': Tensor(shape=(3,), dtype=float32),
'rotation': float32,
'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'question_answer': Sequence({
'answer': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
파일 이름 | 텍스트 | 끈 | ||
영상 | 영상 | (없음, 없음, 3) | uint8 | |
사물 | 순서 | |||
객체/3d_coords | 텐서 | (삼,) | float32 | |
물체/색상 | 클래스 라벨 | 정수64 | ||
물체/재료 | 클래스 라벨 | 정수64 | ||
객체/pixel_coords | 텐서 | (삼,) | float32 | |
객체/회전 | 텐서 | float32 | ||
사물/모양 | 클래스 라벨 | 정수64 | ||
물체/크기 | 클래스 라벨 | 정수64 | ||
질문 답변 | 순서 | |||
질문_답변/답변 | 텍스트 | 끈 | ||
질문_답변/질문 | 텍스트 | 끈 |
감독되는 키 (
as_supervised
doc 참조):None
그림 ( tfds.show_examples ):
- 예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{johnson2017clevr,
title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
year={2017}
}