사용자 정의 데이터 검증

TFDV는 SQL을 사용한 사용자 지정 데이터 유효성 검사를 지원합니다. verify_statistics 또는 custom_validate_statistics 를 사용하여 사용자 정의 데이터 유효성 검사를 실행할 수 있습니다. 사용자 지정 유효성 검사와 함께 표준 스키마 기반 데이터 유효성 검사를 실행하려면 validate_statistics 사용하세요. 사용자 정의 검증만 실행하려면 custom_validate_statistics 사용하십시오.

사용자 정의 데이터 유효성 검사 구성

CustomValidationConfig를 사용하여 실행할 사용자 지정 유효성 검사를 정의합니다. 각 유효성 검사에 대해 부울 값을 반환하는 SQL 표현식을 제공합니다. 각 SQL 표현식은 지정된 기능에 대한 요약 통계에 대해 실행됩니다. 표현식이 false를 반환하면 TFDV는 제공된 심각도 및 변칙 설명을 사용하여 사용자 지정 변칙을 생성합니다.

개별 기능이나 기능 쌍에 대해 실행되는 사용자 지정 유효성 검사를 구성할 수 있습니다. 각 기능에 대해 사용할 데이터 세트(예: 슬라이스)와 기능 경로를 모두 지정합니다. 단, 기본 슬라이스(예: 모든 예)를 확인하려면 데이터 세트 이름을 비워 둘 수 있습니다. 단일 기능 검증의 경우 기능 통계는 feature 에 바인딩됩니다. 기능 쌍 유효성 검사의 경우 테스트 기능 통계는 feature_test 에 바인딩되고 기본 기능 통계는 feature_base 에 바인딩됩니다. 예제 쿼리는 아래 섹션을 참조하세요.

사용자 정의 검증이 변칙을 트리거하는 경우 TFDV는 변칙의 이유와 함께 변칙 프로토콜을 반환합니다. 각 이유에는 사용자가 구성한 간단한 설명과 이상 현상을 일으킨 쿼리, 쿼리가 실행된 데이터 세트 이름, 기본 기능 경로(기능 쌍 유효성 검사를 실행하는 경우)에 대한 설명이 포함됩니다. 사용자 정의 유효성 검사 결과의 예는 아래 섹션을 참조하세요.

구성 예는 CustomValidationConfig proto의 설명서를 참조하세요.