- 説明:
論文より: 人気のハリウッド映画から 5003 画像データセットを自動的に収集しました。画像は、30 本の映画の 10 フレームごとに最先端の人物検出器を実行することによって取得されました。高い信頼度で検出された人物 (約 20,000 人の候補者) は、クラウドソーシング マーケットプレイスの Amazon Mechanical Turk に送信され、グラウンドトゥルースのラベルが取得されました。各画像には、5 人のトルコ人がそれぞれ 0.01 ドルで上半身の 10 個の関節にラベルを付ける注釈を付けました。外れ値の注釈に対して堅牢であるように、各画像で 5 の中央値のラベル付けが行われています。最後に、人物が遮蔽されているか、または著しく正面が欠けている場合、画像は手動で拒否されました。データの 20% (1016 枚の画像) をテスト用に確保しました。
追加ドキュメント:コード付きの論文について調べる
ソースコード:
tfds.datasets.flic.Builder
バージョン:
-
2.0.0
(デフォルト): リリース ノートはありません。
-
データセットのサイズ:
317.94 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 1,016 |
'train' | 3,987 |
- 機能の構造:
FeaturesDict({
'currframe': float64,
'image': Image(shape=(480, 720, 3), dtype=uint8),
'moviename': Text(shape=(), dtype=string),
'poselet_hit_idx': Sequence(uint16),
'torsobox': BBoxFeature(shape=(4,), dtype=float32),
'xcoords': Sequence(float64),
'ycoords': Sequence(float64),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dタイプ | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
現在のフレーム | テンソル | float64 | ||
画像 | 画像 | (480、720、3) | uint8 | |
映画名 | 文章 | 弦 | ||
ポーズレット_ヒット_idx | シーケンス(テンソル) | (なし、) | uint16 | |
胴箱 | BBox機能 | (4,) | float32 | |
xcoords | シーケンス(テンソル) | (なし、) | float64 | |
ycoords | シーケンス(テンソル) | (なし、) | float64 |
監視キー(
as_supervised
docを参照):None
引用:
@inproceedings{modec13,
title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
author={Sapp, Benjamin and Taskar, Ben},
booktitle={In Proc. CVPR},
year={2013},
}
flic/small (デフォルト設定)
構成の説明: CVPR13 MODEC の論文で使用されている 5003 の例を使用します。
ダウンロードサイズ:
286.35 MiB
図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
フリック/フル
構成の説明: 20928 の例を使用します。これは、より難しい例で構成される FLIC のスーパーセットです。
ダウンロードサイズ:
1.10 GiB
図( tfds.show_examples ):
- 例( tfds.as_dataframe ):