플릭

  • 설명 :

논문에서: 우리는 인기 할리우드 영화에서 자동으로 5003개의 이미지 데이터세트를 수집했습니다. 영상은 30편의 영화 중 10프레임마다 최첨단 인물 탐지기를 실행해 얻은 것이다. 그런 다음 높은 신뢰도로 탐지된 사람들(약 20,000명의 후보자)을 크라우드소싱 시장인 Amazon Mechanical Turk로 보내 실측 라벨링을 받았습니다. 각 이미지에는 5명의 Turkers가 각각 $0.01의 비용으로 주석을 달아 10개의 상체 관절에 라벨을 붙였습니다. 이상치 주석에 견고하도록 각 이미지에서 5중 중앙값 라벨링을 사용했습니다. 마지막으로, 사람이 가려졌거나 심각하게 정면이 아닌 경우 이미지를 수동으로 거부했습니다. 테스트를 위해 데이터의 20%(1016개 이미지)를 따로 보관했습니다.

나뉘다
'test' 1,016
'train' 3,987
  • 기능 구조 :
FeaturesDict({
    'currframe': float64,
    'image': Image(shape=(480, 720, 3), dtype=uint8),
    'moviename': Text(shape=(), dtype=string),
    'poselet_hit_idx': Sequence(uint16),
    'torsobox': BBoxFeature(shape=(4,), dtype=float32),
    'xcoords': Sequence(float64),
    'ycoords': Sequence(float64),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
현재 프레임 텐서 float64
영상 영상 (480, 720, 3) uint8
영화명 텍스트
poselet_hit_idx 시퀀스(텐서) (없음,) 단위16
몸통 상자 B박스특징 (4,) float32
xcoords 시퀀스(텐서) (없음,) float64
ycoords 시퀀스(텐서) (없음,) float64
@inproceedings{modec13,
    title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
    author={Sapp, Benjamin and Taskar, Ben},
    booktitle={In Proc. CVPR},
    year={2013},
  }

flic/small(기본 구성)

  • 구성 설명 : CVPR13 MODEC 논문에 사용된 5003개의 예제를 사용합니다.

  • 다운로드 크기 : 286.35 MiB

  • 그림 ( tfds.show_examples ):

심상

플릭/전체

  • 구성 설명 : 더 어려운 예제로 구성된 FLIC의 상위 집합인 20928개의 예제를 사용합니다.

  • 다운로드 크기 : 1.10 GiB

  • 그림 ( tfds.show_examples ):

심상