- Descriptif :
WebVid est un ensemble de données à grande échelle de courtes vidéos avec des descriptions textuelles provenant du Web. Les vidéos sont diverses et riches dans leur contenu.
WebVid-10M contient :
10,7 millions de paires de sous-titres vidéo. 52 000 heures de vidéo au total.
Page d'accueil : https://m-bain.github.io/webvid-dataset/
Code source :
tfds.datasets.webvid.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut,~/tensorflow_datasets/downloads/manual/
) :
Suivez les instructions de téléchargement dans https://m-bain.github.io/webvid-dataset/ pour obtenir les données. Placez les fichiers csv et les répertoires vidéo dansmanual_dir/webvid
, de sorte que les fichiers mp4 soient placés dansmanual_dir/webvid/*/*_*/*.mp4
.
Le premier répertoire étant généralement un répertoire de partie arbitraire (pour le téléchargement fragmenté), le deuxième répertoire est le répertoire de la page (deux chiffres autour du trait de soulignement), à l'intérieur duquel se trouvent un ou plusieurs fichiers mp4.
Mise en cache automatique ( documentation ): Inconnu
Fractionnements :
Diviser | Exemples |
---|
- Structure des fonctionnalités :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
légende | Texte | chaîne | ||
identifiant | Texte | chaîne | ||
URL | Texte | chaîne | ||
vidéo | Vidéo (Image) | (Aucun, 360, 640, 3) | uint8 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) : Manquant.
Citation :
@misc{bain2021frozen,
title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
year={2021},
eprint={2104.00650},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
, - Descriptif :
WebVid est un ensemble de données à grande échelle de courtes vidéos avec des descriptions textuelles provenant du Web. Les vidéos sont diverses et riches dans leur contenu.
WebVid-10M contient :
10,7 millions de paires de sous-titres vidéo. 52 000 heures de vidéo au total.
Page d'accueil : https://m-bain.github.io/webvid-dataset/
Code source :
tfds.datasets.webvid.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut,~/tensorflow_datasets/downloads/manual/
) :
Suivez les instructions de téléchargement dans https://m-bain.github.io/webvid-dataset/ pour obtenir les données. Placez les fichiers csv et les répertoires vidéo dansmanual_dir/webvid
, de sorte que les fichiers mp4 soient placés dansmanual_dir/webvid/*/*_*/*.mp4
.
Le premier répertoire étant généralement un répertoire de partie arbitraire (pour le téléchargement fragmenté), le deuxième répertoire est le répertoire de la page (deux chiffres autour du trait de soulignement), à l'intérieur duquel se trouvent un ou plusieurs fichiers mp4.
Mise en cache automatique ( documentation ): Inconnu
Fractionnements :
Diviser | Exemples |
---|
- Structure des fonctionnalités :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'video': Video(Image(shape=(360, 640, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
légende | Texte | chaîne | ||
identifiant | Texte | chaîne | ||
URL | Texte | chaîne | ||
vidéo | Vidéo (Image) | (Aucun, 360, 640, 3) | uint8 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) : Manquant.
Citation :
@misc{bain2021frozen,
title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
author={Max Bain and Arsha Nagrani and Gül Varol and Andrew Zisserman},
year={2021},
eprint={2104.00650},
archivePrefix={arXiv},
primaryClass={cs.CV}
}