TFDV hỗ trợ xác thực dữ liệu tùy chỉnh bằng SQL. Bạn có thể chạy xác thực dữ liệu tùy chỉnh bằng cách sử dụng valid_statistics hoặc custom_validate_statistics . Sử dụng validate_statistics
để chạy xác thực dữ liệu dựa trên lược đồ, tiêu chuẩn cùng với xác thực tùy chỉnh. Sử dụng custom_validate_statistics
để chỉ chạy xác thực tùy chỉnh.
Định cấu hình xác thực dữ liệu tùy chỉnh
Sử dụng CustomValidationConfig để xác định các xác thực tùy chỉnh để chạy. Đối với mỗi lần xác thực, hãy cung cấp một biểu thức SQL để trả về giá trị boolean. Mỗi biểu thức SQL được chạy dựa trên số liệu thống kê tóm tắt cho tính năng được chỉ định. Nếu biểu thức trả về sai, TFDV sẽ tạo ra một điểm bất thường tùy chỉnh bằng cách sử dụng mô tả mức độ nghiêm trọng và điểm bất thường được cung cấp.
Bạn có thể định cấu hình xác thực tùy chỉnh chạy theo từng tính năng hoặc cặp tính năng. Đối với mỗi tính năng, hãy chỉ định cả tập dữ liệu (tức là lát) và đường dẫn tính năng sẽ sử dụng, mặc dù bạn có thể để trống tên tập dữ liệu nếu bạn muốn xác thực lát cắt mặc định (nghĩa là tất cả các ví dụ). Đối với việc xác thực tính năng đơn lẻ, số liệu thống kê về tính năng bị ràng buộc với feature
. Để xác thực cặp tính năng, số liệu thống kê tính năng thử nghiệm được liên kết với feature_test
và số liệu thống kê tính năng cơ sở được liên kết với feature_base
. Xem phần bên dưới để biết các truy vấn ví dụ.
Nếu quá trình xác thực tùy chỉnh gây ra sự bất thường, TFDV sẽ trả về một nguyên mẫu Bất thường kèm theo (các) lý do dẫn đến sự bất thường. Mỗi lý do sẽ có một mô tả ngắn, được người dùng định cấu hình và một mô tả có truy vấn gây ra sự bất thường, tên tập dữ liệu mà truy vấn được chạy và đường dẫn tính năng cơ sở (nếu chạy xác thực cặp tính năng). Xem phần bên dưới để biết ví dụ về kết quả xác thực tùy chỉnh.
Xem tài liệu trong proto CustomValidationConfig
để biết cấu hình ví dụ.