Validación de datos personalizada

TFDV admite la validación de datos personalizada mediante SQL. Puede ejecutar una validación de datos personalizada utilizando validar_statistics o custom_validate_statistics . Utilice validate_statistics para ejecutar una validación de datos estándar basada en esquemas junto con una validación personalizada. Utilice custom_validate_statistics para ejecutar solo validación personalizada.

Configurar la validación de datos personalizados

Utilice CustomValidationConfig para definir validaciones personalizadas para ejecutar. Para cada validación, proporcione una expresión SQL que devuelva un valor booleano. Cada expresión SQL se ejecuta con respecto a las estadísticas de resumen de la característica especificada. Si la expresión devuelve falso, TFDV genera una anomalía personalizada utilizando la gravedad y la descripción de anomalía proporcionadas.

Puede configurar validaciones personalizadas que se ejecuten en funciones individuales o pares de funciones. Para cada característica, especifique tanto el conjunto de datos (es decir, el sector) como la ruta de la característica que se utilizará, aunque puede dejar el nombre del conjunto de datos en blanco si desea validar el sector predeterminado (es decir, todos los ejemplos). Para validaciones de características únicas, las estadísticas de características están vinculadas a feature . Para validaciones de pares de características, las estadísticas de características de prueba están vinculadas a feature_test y las estadísticas de características base están vinculadas a feature_base . Consulte la sección siguiente para ver ejemplos de consultas.

Si una validación personalizada desencadena una anomalía, TFDV devolverá un protocolo de anomalías con los motivos de la anomalía. Cada motivo tendrá una breve descripción, que será configurada por el usuario, y una descripción con la consulta que causó la anomalía, los nombres del conjunto de datos en los que se ejecutó la consulta y la ruta de la característica base (si se ejecuta una validación de par de características). Consulte la sección siguiente para ver ejemplos de resultados de validación personalizada.

Consulte la documentación en el protocolo CustomValidationConfig para ver ejemplos de configuraciones.