Le composant de pipeline StatisticsGen TFX génère des statistiques de fonctionnalités sur les données de formation et de diffusion, qui peuvent être utilisées par d'autres composants de pipeline. StatisticsGen utilise Beam pour s'adapter à de grands ensembles de données.
- Consomme : ensembles de données créés par un composant de pipeline ExempleGen.
- Émet : statistiques sur l'ensemble de données.
Validation des données StatisticsGen et TensorFlow
StatisticsGen utilise largement la validation des données TensorFlow pour générer des statistiques à partir de votre ensemble de données.
Utilisation du composant StatsGen
Un composant de pipeline StatisticsGen est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci :
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Utilisation du composant StatsGen avec un schéma
Pour la première exécution d'un pipeline, la sortie de StatisticsGen sera utilisée pour déduire un schéma. Cependant, lors des exécutions ultérieures, vous pouvez disposer d'un schéma organisé manuellement contenant des informations supplémentaires sur votre ensemble de données. En fournissant ce schéma à StatisticsGen, TFDV peut fournir des statistiques plus utiles basées sur les propriétés déclarées de votre ensemble de données.
Dans ce paramètre, vous invoquerez StatisticsGen avec un schéma organisé qui a été importé par un ImporterNode comme ceci :
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Création d'un schéma organisé
Schema
dans TFX est une instance du proto Schema
de métadonnées TensorFlow. Celui-ci peut être composé au format texte à partir de zéro. Cependant, il est plus facile d’utiliser le schéma déduit produit par SchemaGen
comme point de départ. Une fois le composant SchemaGen
exécuté, le schéma sera situé sous la racine du pipeline dans le chemin suivant :
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Où <artifact_id>
représente un ID unique pour cette version du schéma dans MLMD. Ce prototype de schéma peut ensuite être modifié pour communiquer des informations sur l'ensemble de données qui ne peuvent pas être déduites de manière fiable, ce qui rendra la sortie de StatisticsGen
plus utile et la validation effectuée dans le composant ExampleValidator
plus stricte.
Plus de détails sont disponibles dans la référence de l'API StatisticsGen .