- 説明:
COCO データセット内の画像に基づく 3 つの参照表現データセットのコレクション。参照表現は、画像内の固有のオブジェクトを説明するテキストです。これらのデータセットは、人間の評価者に COCO データセット内の境界ボックスで区切られたオブジェクトを明確にするよう依頼することによって収集されます。
RefCoco と RefCoco+ は Kazemzadeh らによるものです。 2014. RefCoco+ の表現は厳密に外観に基づいた記述であり、評価者が位置に基づいた記述を使用することを禁止することで強制されています (たとえば、「右側の人」は RefCoco+ の有効な記述ではありません)。 RefCocoG は Mao らからのものです。 2016 では、アノテーション プロセスの違いにより、RefCoco と比較してオブジェクトの説明がより豊富になっています。特に、RefCoco はインタラクティブなゲームベースの設定で収集されましたが、RefCocoG は非インタラクティブな設定で収集されました。平均すると、RefCocoG には 1 つの式につき 8.4 ワードがあり、RefCoco には 3.5 ワードがあります。
各データセットには異なる分割割り当てがあり、通常はすべて論文で報告されます。 RefCoco と RefCoco+ の「testA」セットと「testB」セットには、それぞれ人のみと人以外のみが含まれます。画像はさまざまな分割に分割されます。 「google」分割では、画像ではなくオブジェクトがトレイン分割とトレイン以外の分割に分割されます。これは、同じイメージがトレイン分割と検証分割の両方に表示される可能性がありますが、イメージ内で参照されるオブジェクトが 2 つのセット間で異なることを意味します。対照的に、「unc」と「umd」は、パーティション イメージをトレーニング、検証、テストの分割に分割します。 RefCocoG では、「google」分割には正規のテスト セットがなく、通常、検証セットは論文で「val*」として報告されます。
各データセットと分割の統計 (「refs」は参照式の数、「images」は画像の数です):
データセット | パーティション | スプリット | 参照 | 画像 |
---|---|---|---|---|
レフココ | グーグル | 電車 | 40000 | 19213 |
レフココ | グーグル | ヴァル | 5000 | 4559 |
レフココ | グーグル | テスト | 5000 | 4527 |
レフココ | アンク | 電車 | 42404 | 16994 |
レフココ | アンク | ヴァル | 3811 | 1500 |
レフココ | アンク | テストA | 1975年 | 750 |
レフココ | アンク | テストB | 1810年 | 750 |
レフココ+ | アンク | 電車 | 42278 | 16992 |
レフココ+ | アンク | ヴァル | 3805 | 1500 |
レフココ+ | アンク | テストA | 1975年 | 750 |
レフココ+ | アンク | テストB | 1798年 | 750 |
レフココグ | グーグル | 電車 | 44822 | 24698 |
レフココグ | グーグル | ヴァル | 5000 | 4650 |
レフココグ | うーん | 電車 | 42226 | 21899 |
レフココグ | うーん | ヴァル | 2573 | 1300 |
レフココグ | うーん | テスト | 5023 | 2600 |
追加ドキュメント:コード付きの論文について調べる
ソースコード:
tfds.datasets.ref_coco.Builder
バージョン:
-
1.0.0
: 初期リリース。 -
1.1.0
(デフォルト): マスクを追加しました。
-
ダウンロードサイズ:
Unknown size
手動ダウンロード手順: このデータセットでは、ソース データを
download_config.manual_dir
に手動でダウンロードする必要があります (デフォルトは~/tensorflow_datasets/downloads/manual/
)。https://github.com/lichengunc/referの指示に従い、リポジトリで指定されている data/ ディレクトリと一致する注釈と画像をダウンロードします。
https://github.com/cocodataset/cocoapiの PythonAPI の手順に従って、 https://cocodataset.org/#downloadから pycocotools と instances_train2014 アノテーション ファイルを取得します。
(1) の Refer.py と (2) の pycocotools の両方を PYTHONPATH に追加します。
Manual_download_process.py を実行して refcoco.json を生成し、
ref_data_root
、coco_annotations_file
、およびout_file
、これらのファイルをダウンロードした場所または保存する場所に対応する値に置き換えます。 Manual_download_process.py は TFDS リポジトリにあることに注意してください。https://cocodataset.org/#downloadから COCO トレーニング セットをダウンロードし、
coco_train2014/
というフォルダーに貼り付けます。refcoco.json
coco_train2014
と同じレベルに移動します。標準のマニュアルダウンロード手順に従ってください。
自動キャッシュ(ドキュメント): いいえ
機能の構造:
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dタイプ | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
coco_annotations | 順序 | |||
coco_annotations/エリア | テンソル | int64 | ||
coco_annotations/bbox | BBox機能 | (4,) | float32 | |
coco_annotations/id | テンソル | int64 | ||
coco_annotations/ラベル | テンソル | int64 | ||
画像 | 画像 | (なし、なし、3) | uint8 | |
画像/ID | テンソル | int64 | ||
オブジェクト | 順序 | |||
オブジェクト/エリア | テンソル | int64 | ||
オブジェクト/Bボックス | BBox機能 | (4,) | float32 | |
オブジェクト/gt_box_index | テンソル | int64 | ||
オブジェクト/ID | テンソル | int64 | ||
オブジェクト/ラベル | テンソル | int64 | ||
オブジェクト/マスク | 画像 | (なし、なし、3) | uint8 | |
オブジェクト/refexp | 順序 | |||
オブジェクト/refexp/生 | 文章 | 弦 | ||
オブジェクト/refexp/refexp_id | テンソル | int64 |
監視キー(
as_supervised
docを参照):None
引用:
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (デフォルト設定)
データセットのサイズ:
3.29 GiB
分割:
スプリット | 例 |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,994 |
'validation' | 1,500 |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
ref_coco/refcoco_google
データセットのサイズ:
4.65 GiB
分割:
スプリット | 例 |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
データセットのサイズ:
3.29 GiB
分割:
スプリット | 例 |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,992 |
'validation' | 1,500 |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
ref_coco/refcocog_google
データセットのサイズ:
4.64 GiB
分割:
スプリット | 例 |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
ref_coco/refcocog_umd
データセットのサイズ:
4.08 GiB
分割:
スプリット | 例 |
---|---|
'test' | 2,600 |
'train' | 21,899 |
'validation' | 1,300 |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):