Niestandardowa weryfikacja danych

TFDV obsługuje niestandardową walidację danych przy użyciu SQL. Możesz uruchomić niestandardową weryfikację danych za pomocą valid_statistics lub custom_validate_statistics . Użyj validate_statistics , aby uruchomić standardową weryfikację danych opartą na schemacie wraz z weryfikacją niestandardową. Użyj custom_validate_statistics , aby uruchomić tylko niestandardową weryfikację.

Konfigurowanie niestandardowej walidacji danych

Użyj CustomValidationConfig , aby zdefiniować niestandardowe walidacje do uruchomienia. Dla każdej walidacji podaj wyrażenie SQL, które zwraca wartość logiczną. Każde wyrażenie SQL jest uruchamiane w oparciu o statystyki podsumowujące dla określonej funkcji. Jeśli wyrażenie zwróci wartość false, TFDV generuje niestandardową anomalię, korzystając z podanej ważności i opisu anomalii.

Możesz skonfigurować niestandardowe weryfikacje, które działają względem poszczególnych funkcji lub par funkcji. Dla każdej funkcji określ zarówno zbiór danych (tj. wycinek), jak i ścieżkę obiektu do użycia, chociaż możesz pozostawić nazwę zbioru danych pustą, jeśli chcesz sprawdzić poprawność domyślnego wycinka (tj. wszystkich przykładów). W przypadku walidacji pojedynczej funkcji statystyki funkcji muszą dotyczyć feature . W przypadku walidacji par funkcji statystyki funkcji testowych są powiązane z feature_test , a statystyki funkcji podstawowej są powiązane z feature_base . Przykładowe zapytania znajdziesz w poniższej sekcji.

Jeśli niestandardowa weryfikacja wywoła anomalię, TFDV zwróci proto Anomalies z przyczyną(-ami) anomalii. Każdy powód będzie miał krótki opis, który jest konfigurowany przez użytkownika, oraz opis zawierający zapytanie, które spowodowało anomalię, nazwy zbiorów danych, na których uruchomiono zapytanie, oraz podstawową ścieżkę funkcji (w przypadku uruchamiania sprawdzania par funkcji). Zobacz sekcję poniżej, aby zapoznać się z przykładowymi wynikami niestandardowej walidacji.

Zobacz dokumentację w proto CustomValidationConfig , aby zapoznać się z przykładowymi konfiguracjami.