カスタムデータの検証

TFDV は、SQL を使用したカスタム データ検証をサポートしています。 validate_statisticsまたはcustom_validate_statisticsを使用してカスタム データ検証を実行できます。 validate_statisticsを使用して、カスタム検証とともに標準のスキーマベースのデータ検証を実行します。カスタム検証のみを実行するには、 custom_validate_statisticsを使用します。

カスタムデータ検証の構成

CustomValidationConfig を使用して、実行するカスタム検証を定義します。検証ごとに、ブール値を返す SQL 式を指定します。各 SQL 式は、指定された機能の概要統計に対して実行されます。式が false を返す場合、TFDV は、提供された重大度と異常の説明を使用してカスタム異常を生成します。

個々の機能または機能ペアに対して実行するカスタム検証を構成できます。フィーチャごとに、使用するデータセット (つまり、スライス) とフィーチャ パスの両方を指定します。ただし、デフォルトのスライス (つまり、すべての例) を検証する場合は、データセット名を空白のままにしてもかまいません。単一特徴検証の場合、特徴統計はfeatureにバインドされます。特徴ペアの検証の場合、テスト特徴統計はfeature_testにバインドされ、ベース特徴統計はfeature_baseにバインドされます。クエリの例については、以下のセクションを参照してください。

カスタム検証によって異常がトリガーされた場合、TFDV は異常の理由を含む Anomalies プロトを返します。それぞれの理由には、ユーザーが構成する短い説明と、異常を引き起こしたクエリ、クエリが実行されたデータセット名、およびベースの特徴パス (特徴ペアの検証を実行している場合) を含む説明が含まれます。カスタム検証の結果の例については、以下のセクションを参照してください。

構成例については、 CustomValidationConfigプロトのドキュメントを参照してください。