- 설명 :
논문에서: 우리는 인기 할리우드 영화에서 자동으로 5003개의 이미지 데이터세트를 수집했습니다. 영상은 30편의 영화 중 10프레임마다 최첨단 인물 탐지기를 실행해 얻은 것이다. 그런 다음 높은 신뢰도로 탐지된 사람들(약 20,000명의 후보자)을 크라우드소싱 시장인 Amazon Mechanical Turk로 보내 실측 라벨링을 받았습니다. 각 이미지에는 5명의 Turkers가 각각 $0.01의 비용으로 주석을 달아 10개의 상체 관절에 라벨을 붙였습니다. 이상치 주석에 견고하도록 각 이미지에서 5중 중앙값 라벨링을 사용했습니다. 마지막으로, 사람이 가려졌거나 심각하게 정면이 아닌 경우 이미지를 수동으로 거부했습니다. 테스트를 위해 데이터의 20%(1016개 이미지)를 따로 보관했습니다.
추가 문서 : 코드 가 포함된 논문 탐색
소스 코드 :
tfds.datasets.flic.Builder
버전 :
-
2.0.0
(기본값): 릴리스 노트가 없습니다.
-
데이터세트 크기 :
317.94 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,016 |
'train' | 3,987 |
- 기능 구조 :
FeaturesDict({
'currframe': float64,
'image': Image(shape=(480, 720, 3), dtype=uint8),
'moviename': Text(shape=(), dtype=string),
'poselet_hit_idx': Sequence(uint16),
'torsobox': BBoxFeature(shape=(4,), dtype=float32),
'xcoords': Sequence(float64),
'ycoords': Sequence(float64),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
현재 프레임 | 텐서 | float64 | ||
영상 | 영상 | (480, 720, 3) | uint8 | |
영화명 | 텍스트 | 끈 | ||
poselet_hit_idx | 시퀀스(텐서) | (없음,) | 단위16 | |
몸통 상자 | B박스특징 | (4,) | float32 | |
xcoords | 시퀀스(텐서) | (없음,) | float64 | |
ycoords | 시퀀스(텐서) | (없음,) | float64 |
감독되는 키 (
as_supervised
doc 참조):None
인용 :
@inproceedings{modec13,
title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
author={Sapp, Benjamin and Taskar, Ben},
booktitle={In Proc. CVPR},
year={2013},
}
flic/small(기본 구성)
구성 설명 : CVPR13 MODEC 논문에 사용된 5003개의 예제를 사용합니다.
다운로드 크기 :
286.35 MiB
그림 ( tfds.show_examples ):
- 예 ( tfds.as_dataframe ):
플릭/전체
구성 설명 : 더 어려운 예제로 구성된 FLIC의 상위 집합인 20928개의 예제를 사용합니다.
다운로드 크기 :
1.10 GiB
그림 ( tfds.show_examples ):
- 예 ( tfds.as_dataframe ):