wit_kaggle

  • 説明:

ウィキペディア - 画像/キャプション マッチング Kaggle コンペティション。

このコンペティションは、ウィキメディア財団研究チームが、Google Research および数人の外部協力者と協力して主催しています。このコンテストは、このSIGIR ペーパーで詳述されているように、Google Research によって公開されたWIT データセットに基づいています。

このコンテストでは、画像に最も近いテキストを自動的に取得するモデルを構築します。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングします。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。成功すれば、最大のオンライン百科事典のアクセシビリティに貢献することになります。何百万人ものウィキペディアの読者と編集者が、大規模なメディアをより簡単に理解し、検索し、説明できるようになります。その結果、すべての人の学習を改善するオープン モデルに貢献できます。

  • ホームページ: https://www.kaggle.com/c/wikipedia-image-caption/code

  • ソースコード: tfds.vision_language.wit_kaggle.WitKaggle

  • バージョン:

    • 1.0.0 : 初期リリース。これは、Wikipedia - Image/Caption Matching Kaggle コンペティション ( https://www.kaggle.com/c/wikipedia-image-caption/data ) のトレーニング データセットとテスト データセットを提供します。

      コンテストの目標は、画像に最も近いテキストを自動的に取得するモデルを構築することです。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングする必要があります。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。

      このリリースは、Kaggle コンペティションによってまだ提供されていないため、テスト セットのグラウンド トゥルースを提供していないことに注意してください。

      すべてのトレーニング観測に対応する画像データがあるわけではないことに注意してください。公開された画像には、人物が写っている画像はすべて除外されています。画像データに関連付けられていないサンプルの場合、次の画像機能が使用されます。 imageはバイト 64 でエンコードされた空白の画像であり、 embeddingは 2048 個のゼロのベクトルです。

      コンテスト用にリリースされたサンプルは、次のようにロードできます: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Beam パイプラインを最適化して、画像 URL のない行を無視して、闘争を回避します。ビームカウンターも追加。

    • 1.0.2 (デフォルト): ブール フィールドの解析を修正します。

  • ダウンロードサイズ: サイズUnknown size

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    呼び出された構成に応じて、manual_dir には次のサブディレクトリのいくつかが含まれている必要があります。

    • 列車
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • テスト
    • test.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

データセットをダウンロードするためのリンクを取得するには、 https://www.kaggle.com/c/wikipedia-image-caption/dataでの登録が必要です。

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (デフォルト設定)

  • 構成の説明: ウィキペディアと画像/キャプションのマッチング コンテストのトレーニング サンプル。

  • データセットのサイズ: 1.16 TiB

  • スプリット:

スプリット
'train_with_extended_features' 37,046,386
  • 機能構造:
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
attribution_passes_lang_idテンソルブール
caption_alt_text_description文章ストリング
caption_attribution_description文章ストリング
キャプション_参照_説明文章ストリング
caption_title_and_reference_description文章ストリング
context_page_description文章ストリング
context_section_description文章ストリング
埋め込みテンソル(2048年) float32
hierarchy_section_title文章ストリング
画像画像(なし、なし、3) uint8
image_url文章ストリング
is_main_imageテンソルブール
言語文章ストリング
metadata_url文章ストリング
mime_type文章ストリング
オリジナルの高さテンソルint32
original_widthテンソルint32
page_changed_recentlyテンソルブール
ページタイトル文章ストリング
page_url文章ストリング
section_title文章ストリング

視覚化

wit_kaggle/test_without_gold

  • 構成の説明: Wikipedia-Image/Caption Matching コンテストのテスト サンプル (ゴールド アンサーなし)。

  • データセットサイズ: 3.37 GiB

  • スプリット:

スプリット
'test_without_gold' 92,366
  • 機能構造:
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
caption_title_and_reference_description文章ストリング
埋め込みテンソル(2048年) float32
ID文章ストリング
画像画像(なし、なし、3) uint8
image_url文章ストリング
metadata_url文章ストリング

視覚化

  • 説明:

ウィキペディア - 画像/キャプション マッチング Kaggle コンペティション。

このコンペティションは、ウィキメディア財団研究チームが、Google Research および数人の外部協力者と協力して主催しています。このコンテストは、このSIGIR ペーパーで詳述されているように、Google Research によって公開されたWIT データセットに基づいています。

このコンテストでは、画像に最も近いテキストを自動的に取得するモデルを構築します。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングします。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。成功すれば、最大のオンライン百科事典のアクセシビリティに貢献することになります。何百万人ものウィキペディアの読者と編集者が、大規模なメディアをより簡単に理解し、検索し、説明できるようになります。その結果、すべての人の学習を改善するオープン モデルに貢献できます。

  • ホームページ: https://www.kaggle.com/c/wikipedia-image-caption/code

  • ソースコード: tfds.vision_language.wit_kaggle.WitKaggle

  • バージョン:

    • 1.0.0 : 初期リリース。これは、Wikipedia - Image/Caption Matching Kaggle コンペティション ( https://www.kaggle.com/c/wikipedia-image-caption/data ) のトレーニング データセットとテスト データセットを提供します。

      コンテストの目標は、画像に最も近いテキストを自動的に取得するモデルを構築することです。具体的には、特定の画像を複数の言語で記事のタイトルまたは複雑なキャプションに関連付けるようにモデルをトレーニングする必要があります。最高のモデルは、ウィキペディアの画像のセマンティックな粒度を説明します。

      このリリースは、Kaggle コンペティションによってまだ提供されていないため、テスト セットのグラウンド トゥルースを提供していないことに注意してください。

      すべてのトレーニング観測に対応する画像データがあるわけではないことに注意してください。公開された画像には、人物が写っている画像はすべて除外されています。画像データに関連付けられていないサンプルの場合、次の画像機能が使用されます。 imageはバイト 64 でエンコードされた空白の画像であり、 embeddingは 2048 個のゼロのベクトルです。

      コンテスト用にリリースされたサンプルは、次のようにロードできます: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Beam パイプラインを最適化して、画像 URL のない行を無視して、闘争を回避します。ビームカウンターも追加。

    • 1.0.2 (デフォルト): ブール フィールドの解析を修正します。

  • ダウンロードサイズ: サイズUnknown size

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    呼び出された構成に応じて、manual_dir には次のサブディレクトリのいくつかが含まれている必要があります。

    • 列車
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • テスト
    • test.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

データセットをダウンロードするためのリンクを取得するには、 https://www.kaggle.com/c/wikipedia-image-caption/dataでの登録が必要です。

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (デフォルト設定)

  • 構成の説明: ウィキペディアと画像/キャプションのマッチング コンテストのトレーニング サンプル。

  • データセットのサイズ: 1.16 TiB

  • スプリット:

スプリット
'train_with_extended_features' 37,046,386
  • 機能構造:
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
attribution_passes_lang_idテンソルブール
caption_alt_text_description文章ストリング
caption_attribution_description文章ストリング
キャプション_参照_説明文章ストリング
caption_title_and_reference_description文章ストリング
context_page_description文章ストリング
context_section_description文章ストリング
埋め込みテンソル(2048年) float32
hierarchy_section_title文章ストリング
画像画像(なし、なし、3) uint8
image_url文章ストリング
is_main_imageテンソルブール
言語文章ストリング
metadata_url文章ストリング
mime_type文章ストリング
オリジナルの高さテンソルint32
original_widthテンソルint32
page_changed_recentlyテンソルブール
ページタイトル文章ストリング
page_url文章ストリング
section_title文章ストリング

視覚化

wit_kaggle/test_without_gold

  • 構成の説明: Wikipedia-Image/Caption Matching コンテストのテスト サンプル (ゴールド アンサーなし)。

  • データセットサイズ: 3.37 GiB

  • スプリット:

スプリット
'test_without_gold' 92,366
  • 機能構造:
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
caption_title_and_reference_description文章ストリング
埋め込みテンソル(2048年) float32
ID文章ストリング
画像画像(なし、なし、3) uint8
image_url文章ストリング
metadata_url文章ストリング

視覚化