- 説明:
ウィキペディア - 画像/キャプション マッチング Kaggle コンペティション。
このコンペティションは、ウィキメディア財団の研究チームが、Google Research および数人の外部協力者と協力して主催しています。このコンテストは、このSIGIR ペーパーで詳述されているように、Google Research によって公開されたWIT データセットに基づいています。
このコンテストでは、画像に最も近いテキストを自動的に取得するモデルを構築します。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングします。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。成功すれば、最大のオンライン百科事典のアクセシビリティに貢献することになります。何百万人ものウィキペディアの読者と編集者が、大規模なメディアをより簡単に理解し、検索し、説明できるようになります。その結果、すべての人の学習を改善するオープン モデルに貢献できます。
ホームページ: https://www.kaggle.com/c/wikipedia-image-caption/code
バージョン:
1.0.0
: 初期リリース。これは、Wikipedia - Image/Caption Matching Kaggle コンペティション ( https://www.kaggle.com/c/wikipedia-image-caption/data ) のトレーニング データセットとテスト データセットを提供します。コンテストの目標は、画像に最も近いテキストを自動的に取得するモデルを構築することです。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングする必要があります。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。
このリリースは、Kaggle コンペティションによってまだ提供されていないため、テスト セットのグラウンド トゥルースを提供していないことに注意してください。
すべてのトレーニング観測に対応する画像データがあるわけではないことに注意してください。公開された画像には、人物が写っている画像はすべて除外されています。画像データに関連付けられていないサンプルの場合、次の画像機能が使用されます。
image
はバイト 64 でエンコードされた空白の画像であり、embedding
は 2048 個のゼロのベクトルです。コンテスト用にリリースされたサンプルは、次のようにロードできます:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Beam パイプラインを最適化して、画像 URL のない行を無視して、闘争を回避します。ビームカウンターも追加。1.0.2
(デフォルト): ブール フィールドの解析を修正します。
ダウンロードサイズ: サイズ
Unknown size
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
呼び出された構成に応じて、manual_dir には次のサブディレクトリのいくつかが含まれている必要があります。- 列車
- train-{0000x}-of-00005.tsv.zip
- image_data_train/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- テスト
- test.tsv.zip
- image_data_test/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
データセットをダウンロードするためのリンクを取得するには、 https://www.kaggle.com/c/wikipedia-image-caption/dataでの登録が必要です。
自動キャッシュ(ドキュメント): いいえ
監視キー(
as_supervised
docを参照):('image_url', 'caption_title_and_reference_description')
引用:
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (デフォルト設定)
構成の説明: ウィキペディアと画像/キャプションのマッチング コンテストのトレーニング サンプル。
データセットのサイズ:
1.16 TiB
スプリット:
スプリット | 例 |
---|---|
'train_with_extended_features' | 37,046,386 |
- 機能構造:
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
attribution_passes_lang_id | テンソル | ブール | ||
caption_alt_text_description | 文章 | ストリング | ||
caption_attribution_description | 文章 | ストリング | ||
キャプション_参照_説明 | 文章 | ストリング | ||
caption_title_and_reference_description | 文章 | ストリング | ||
context_page_description | 文章 | ストリング | ||
context_section_description | 文章 | ストリング | ||
埋め込み | テンソル | (2048年) | float32 | |
hierarchy_section_title | 文章 | ストリング | ||
画像 | 画像 | (なし、なし、3) | uint8 | |
image_url | 文章 | ストリング | ||
is_main_image | テンソル | ブール | ||
言語 | 文章 | ストリング | ||
metadata_url | 文章 | ストリング | ||
mime_type | 文章 | ストリング | ||
オリジナルの高さ | テンソル | int32 | ||
original_width | テンソル | int32 | ||
page_changed_recently | テンソル | ブール | ||
ページタイトル | 文章 | ストリング | ||
page_url | 文章 | ストリング | ||
section_title | 文章 | ストリング |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
wit_kaggle/test_without_gold
構成の説明: Wikipedia-Image/Caption Matching コンテストのテスト サンプル (ゴールド アンサーなし)。
データセットサイズ:
3.37 GiB
スプリット:
スプリット | 例 |
---|---|
'test_without_gold' | 92,366 |
- 機能構造:
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
caption_title_and_reference_description | 文章 | ストリング | ||
埋め込み | テンソル | (2048年) | float32 | |
ID | 文章 | ストリング | ||
画像 | 画像 | (なし、なし、3) | uint8 | |
image_url | 文章 | ストリング | ||
metadata_url | 文章 | ストリング |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
- 説明:
ウィキペディア - 画像/キャプション マッチング Kaggle コンペティション。
このコンペティションは、ウィキメディア財団の研究チームが、Google Research および数人の外部協力者と協力して主催しています。このコンテストは、このSIGIR ペーパーで詳述されているように、Google Research によって公開されたWIT データセットに基づいています。
このコンテストでは、画像に最も近いテキストを自動的に取得するモデルを構築します。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングします。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。成功すれば、最大のオンライン百科事典のアクセシビリティに貢献することになります。何百万人ものウィキペディアの読者と編集者が、大規模なメディアをより簡単に理解し、検索し、説明できるようになります。その結果、すべての人の学習を改善するオープン モデルに貢献できます。
ホームページ: https://www.kaggle.com/c/wikipedia-image-caption/code
バージョン:
1.0.0
: 初期リリース。これは、Wikipedia - Image/Caption Matching Kaggle コンペティション ( https://www.kaggle.com/c/wikipedia-image-caption/data ) のトレーニング データセットとテスト データセットを提供します。コンテストの目標は、画像に最も近いテキストを自動的に取得するモデルを構築することです。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングする必要があります。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。
このリリースは、Kaggle コンペティションによってまだ提供されていないため、テスト セットのグラウンド トゥルースを提供していないことに注意してください。
すべてのトレーニング観測に対応する画像データがあるわけではないことに注意してください。公開された画像には、人物が写っている画像はすべて除外されています。画像データに関連付けられていないサンプルの場合、次の画像機能が使用されます。
image
はバイト 64 でエンコードされた空白の画像であり、embedding
は 2048 個のゼロのベクトルです。コンテスト用にリリースされたサンプルは、次のようにロードできます:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Beam パイプラインを最適化して、画像 URL のない行を無視して、闘争を回避します。ビームカウンターも追加。1.0.2
(デフォルト): ブール フィールドの解析を修正します。
ダウンロードサイズ: サイズ
Unknown size
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
呼び出された構成に応じて、manual_dir には次のサブディレクトリのいくつかが含まれている必要があります。- 列車
- train-{0000x}-of-00005.tsv.zip
- image_data_train/
- image_pixels/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- テスト
- test.tsv.zip
- image_data_test/
- image_pixels/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
データセットをダウンロードするためのリンクを取得するには、 https://www.kaggle.com/c/wikipedia-image-caption/dataでの登録が必要です。
自動キャッシュ(ドキュメント): いいえ
監視キー(
as_supervised
docを参照):('image_url', 'caption_title_and_reference_description')
引用:
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (デフォルト設定)
構成の説明: ウィキペディアと画像/キャプションのマッチング コンテストのトレーニング サンプル。
データセットのサイズ:
1.16 TiB
スプリット:
スプリット | 例 |
---|---|
'train_with_extended_features' | 37,046,386 |
- 機能構造:
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
attribution_passes_lang_id | テンソル | ブール | ||
caption_alt_text_description | 文章 | ストリング | ||
caption_attribution_description | 文章 | ストリング | ||
キャプション_参照_説明 | 文章 | ストリング | ||
caption_title_and_reference_description | 文章 | ストリング | ||
context_page_description | 文章 | ストリング | ||
context_section_description | 文章 | ストリング | ||
埋め込み | テンソル | (2048年) | float32 | |
hierarchy_section_title | 文章 | ストリング | ||
画像 | 画像 | (なし、なし、3) | uint8 | |
image_url | 文章 | ストリング | ||
is_main_image | テンソル | ブール | ||
言語 | 文章 | ストリング | ||
metadata_url | 文章 | ストリング | ||
mime_type | 文章 | ストリング | ||
オリジナルの高さ | テンソル | int32 | ||
original_width | テンソル | int32 | ||
page_changed_recently | テンソル | ブール | ||
ページタイトル | 文章 | ストリング | ||
page_url | 文章 | ストリング | ||
section_title | 文章 | ストリング |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):
wit_kaggle/test_without_gold
構成の説明: Wikipedia-Image/Caption Matching コンテストのテスト サンプル (ゴールド アンサーなし)。
データセットサイズ:
3.37 GiB
スプリット:
スプリット | 例 |
---|---|
'test_without_gold' | 92,366 |
- 機能構造:
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
caption_title_and_reference_description | 文章 | ストリング | ||
埋め込み | テンソル | (2048年) | float32 | |
ID | 文章 | ストリング | ||
画像 | 画像 | (なし、なし、3) | uint8 | |
image_url | 文章 | ストリング | ||
metadata_url | 文章 | ストリング |
- 図( tfds.show_examples ):
- 例( tfds.as_dataframe ):