TFDV prend en charge la validation de données personnalisée à l'aide de SQL. Vous pouvez exécuter une validation de données personnalisée à l'aide de validate_statistics ou custom_validate_statistics . Utilisez validate_statistics
pour exécuter une validation de données standard basée sur un schéma ainsi qu'une validation personnalisée. Utilisez custom_validate_statistics
pour exécuter uniquement une validation personnalisée.
Configuration de la validation des données personnalisées
Utilisez CustomValidationConfig pour définir les validations personnalisées à exécuter. Pour chaque validation, fournissez une expression SQL qui renvoie une valeur booléenne. Chaque expression SQL est exécutée sur les statistiques récapitulatives de la fonctionnalité spécifiée. Si l'expression renvoie false, TFDV génère une anomalie personnalisée en utilisant la gravité et la description de l'anomalie fournies.
Vous pouvez configurer des validations personnalisées qui s'exécutent sur des fonctionnalités individuelles ou des paires de fonctionnalités. Pour chaque entité, spécifiez à la fois l'ensemble de données (c'est-à-dire la tranche) et le chemin d'accès à l'entité à utiliser, bien que vous puissiez laisser le nom de l'ensemble de données vide si vous souhaitez valider la tranche par défaut (c'est-à-dire tous les exemples). Pour les validations de fonctionnalité unique, les statistiques de fonctionnalité sont liées à feature
. Pour les validations de paires de fonctionnalités, les statistiques des fonctionnalités de test sont liées à feature_test
et les statistiques des fonctionnalités de base sont liées à feature_base
. Voir la section ci-dessous pour des exemples de requêtes.
Si une validation personnalisée déclenche une anomalie, TFDV renverra un prototype d'anomalies avec la ou les raisons de l'anomalie. Chaque raison aura une brève description, configurée par l'utilisateur, et une description avec la requête qui a provoqué l'anomalie, les noms des ensembles de données sur lesquels la requête a été exécutée et le chemin de la fonctionnalité de base (si vous exécutez une validation de paire de fonctionnalités). Voir la section ci-dessous pour un exemple de résultats de validation personnalisée.
Consultez la documentation dans le proto CustomValidationConfig
pour des exemples de configurations.