webvidéo

  • Descriptif :

WebVid est un ensemble de données à grande échelle de courtes vidéos avec des descriptions textuelles provenant du Web. Les vidéos sont diverses et riches dans leur contenu.

WebVid-10M contient :

10,7 millions de paires de sous-titres vidéo. 52 000 heures de vidéo au total.

  • Page d'accueil : https://m-bain.github.io/webvid-dataset/

  • Code source : tfds.datasets.webvid.Builder

  • Versions :

    • 1.0.0 (par défaut) : version initiale.
  • Taille du téléchargement : Unknown size

  • Taille du jeu de données : Unknown size

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut, ~/tensorflow_datasets/downloads/manual/ ) :
    Suivez les instructions de téléchargement dans https://m-bain.github.io/webvid-dataset/ pour obtenir les données. Placez les fichiers csv et les répertoires vidéo dans manual_dir/webvid , de sorte que les fichiers mp4 soient placés dans manual_dir/webvid/*/*_*/*.mp4 .

Le premier répertoire étant généralement un répertoire de partie arbitraire (pour le téléchargement fragmenté), le deuxième répertoire est le répertoire de la page (deux chiffres autour du trait de soulignement), à l'intérieur duquel se trouvent un ou plusieurs fichiers mp4.

  • Mise en cache automatique ( documentation ): Inconnu

  • Fractionnements :

Diviser Exemples
  • Structure des fonctionnalités :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
légende Texte chaîne
identifiant Texte chaîne
URL Texte chaîne
vidéo Vidéo (Image) (Aucun, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
,

  • Descriptif :

WebVid est un ensemble de données à grande échelle de courtes vidéos avec des descriptions textuelles provenant du Web. Les vidéos sont diverses et riches dans leur contenu.

WebVid-10M contient :

10,7 millions de paires de sous-titres vidéo. 52 000 heures de vidéo au total.

  • Page d'accueil : https://m-bain.github.io/webvid-dataset/

  • Code source : tfds.datasets.webvid.Builder

  • Versions :

    • 1.0.0 (par défaut) : version initiale.
  • Taille du téléchargement : Unknown size

  • Taille du jeu de données : Unknown size

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut, ~/tensorflow_datasets/downloads/manual/ ) :
    Suivez les instructions de téléchargement dans https://m-bain.github.io/webvid-dataset/ pour obtenir les données. Placez les fichiers csv et les répertoires vidéo dans manual_dir/webvid , de sorte que les fichiers mp4 soient placés dans manual_dir/webvid/*/*_*/*.mp4 .

Le premier répertoire étant généralement un répertoire de partie arbitraire (pour le téléchargement fragmenté), le deuxième répertoire est le répertoire de la page (deux chiffres autour du trait de soulignement), à l'intérieur duquel se trouvent un ou plusieurs fichiers mp4.

  • Mise en cache automatique ( documentation ): Inconnu

  • Fractionnements :

Diviser Exemples
  • Structure des fonctionnalités :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
légende Texte chaîne
identifiant Texte chaîne
URL Texte chaîne
vidéo Vidéo (Image) (Aucun, 360, 640, 3) uint8
@misc{bain2021frozen,
      title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
      author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
      year={2021},
      eprint={2104.00650},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}