フリック

  • 説明

論文より: 人気のハリウッド映画から 5003 画像データセットを自動的に収集しました。画像は、30 本の映画の 10 フレームごとに最先端の人物検出器を実行することによって取得されました。高い信頼度で検出された人物 (約 20,000 人の候補者) は、クラウドソーシング マーケットプレイスの Amazon Mechanical Turk に送信され、グラウンドトゥルースのラベルが取得されました。各画像には、5 人のトルコ人がそれぞれ 0.01 ドルで上半身の 10 個の関節にラベルを付ける注釈を付けました。外れ値の注釈に対して堅牢であるように、各画像で 5 の中央値のラベル付けが行われています。最後に、人物が遮蔽されているか、または著しく正面が欠けている場合、画像は手動で拒否されました。データの 20% (1016 枚の画像) をテスト用に確保しました。

スプリット
'test' 1,016
'train' 3,987
  • 機能の構造:
FeaturesDict({
    'currframe': float64,
    'image': Image(shape=(480, 720, 3), dtype=uint8),
    'moviename': Text(shape=(), dtype=string),
    'poselet_hit_idx': Sequence(uint16),
    'torsobox': BBoxFeature(shape=(4,), dtype=float32),
    'xcoords': Sequence(float64),
    'ycoords': Sequence(float64),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
現在のフレームテンソルfloat64
画像画像(480、720、3) uint8
映画名文章
ポーズレット_ヒット_idxシーケンス(テンソル) (なし、) uint16
胴箱BBox機能(4,) float32
xcoordsシーケンス(テンソル) (なし、) float64
ycoordsシーケンス(テンソル) (なし、) float64
@inproceedings{modec13,
    title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
    author={Sapp, Benjamin and Taskar, Ben},
    booktitle={In Proc. CVPR},
    year={2013},
  }

flic/small (デフォルト設定)

  • 構成の説明: CVPR13 MODEC の論文で使用されている 5003 の例を使用します。

  • ダウンロードサイズ: 286.35 MiB

  • ( tfds.show_examples ):

視覚化

フリック/フル

  • 構成の説明: 20928 の例を使用します。これは、より難しい例で構成される FLIC のスーパーセットです。

  • ダウンロードサイズ: 1.10 GiB

  • ( tfds.show_examples ):

視覚化