Пользовательская проверка данных

TFDV поддерживает пользовательскую проверку данных с использованием SQL. Вы можете запустить пользовательскую проверку данных, используя validate_statistics или custom_validate_statistics . Используйте validate_statistics для запуска стандартной проверки данных на основе схемы наряду с настраиваемой проверкой. Используйте custom_validate_statistics для запуска только пользовательской проверки.

Настройка пользовательской проверки данных

Используйте CustomValidationConfig , чтобы определить пользовательские проверки для запуска. Для каждой проверки укажите выражение SQL, которое возвращает логическое значение. Каждое выражение SQL выполняется на основе сводной статистики для указанного объекта. Если выражение возвращает значение false, TFDV генерирует пользовательскую аномалию, используя предоставленную серьезность и описание аномалии.

Вы можете настроить пользовательские проверки, которые выполняются для отдельных функций или пар функций. Для каждого объекта укажите как набор данных (т. е. срез), так и путь к используемому объекту, хотя вы можете оставить имя набора данных пустым, если хотите проверить срез по умолчанию (т. е. все примеры). Для проверки отдельных функций статистика функций привязана к feature . Для проверки пар функций статистика тестовых функций привязана к feature_test , а статистика базовых функций привязана к feature_base . См. раздел ниже с примерами запросов.

Если пользовательская проверка вызывает аномалию, TFDV вернет прототип аномалий с указанием причин аномалии. Каждая причина будет иметь краткое описание, настраиваемое пользователем, а также описание с запросом, вызвавшим аномалию, имена наборов данных, для которых был выполнен запрос, и путь к базовому объекту (при выполнении проверки пары объектов). В разделе ниже приведены примеры результатов пользовательской проверки.

Примеры конфигураций см. в документации по прототипу CustomValidationConfig .