ウェブビッド

  • 説明:

WebVid は、Web から提供されたテキストによる説明を含む短いビデオの大規模なデータセットです。ビデオは多様で、コンテンツが豊富です。

WebVid-10M には以下が含まれます。

1,070 万のビデオ キャプション ペア。合計 52,000 時間の動画。

  • ホームページ: https://m-bain.github.io/webvid-dataset/

  • ソース コード: tfds.datasets.webvid.Builder

  • バージョン:

    • 1.0.0 (デフォルト): 初期リリース。
  • ダウンロードサイズ: Unknown size

  • データセットのサイズ: Unknown size

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    https://m-bain.github.io/webvid-dataset/のダウンロード手順に従ってデータを取得します。 mp4 ファイルがmanual_dir/webvid manual_dir/webvid/*/*_*/*.mp4に配置します。

通常、最初のディレクトリは任意のパート ディレクトリ (シャード ダウンロード用) で、2 番目のディレクトリはページ ディレクトリ (アンダースコアを囲む 2 つの数字) で、その中には 1 つ以上の mp4 ファイルがあります。

スプリット
  • 機能構造:
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
キャプション文章
ID文章
URL文章
ビデオ動画(画像) (なし、360、640、3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
,

  • 説明:

WebVid は、Web から提供されたテキストによる説明を含む短いビデオの大規模なデータセットです。ビデオは多様で、コンテンツが豊富です。

WebVid-10M には以下が含まれます。

1,070 万のビデオ キャプション ペア。合計 52,000 時間の動画。

  • ホームページ: https://m-bain.github.io/webvid-dataset/

  • ソース コード: tfds.datasets.webvid.Builder

  • バージョン:

    • 1.0.0 (デフォルト): 初期リリース。
  • ダウンロードサイズ: Unknown size

  • データセットのサイズ: Unknown size

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    https://m-bain.github.io/webvid-dataset/のダウンロード手順に従ってデータを取得します。 mp4 ファイルがmanual_dir/webvid manual_dir/webvid/*/*_*/*.mp4に配置します。

通常、最初のディレクトリは任意のパート ディレクトリ (シャード ダウンロード用) で、2 番目のディレクトリはページ ディレクトリ (アンダースコアを囲む 2 つの数字) で、その中には 1 つ以上の mp4 ファイルがあります。

スプリット
  • 機能構造:
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
キャプション文章
ID文章
URL文章
ビデオ動画(画像) (なし、360、640、3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}