TFDV mendukung validasi data khusus menggunakan SQL. Anda dapat menjalankan validasi data khusus menggunakan validasi_statistik atau custom_validate_statistics . Gunakan validate_statistics
untuk menjalankan validasi data standar berbasis skema bersama dengan validasi khusus. Gunakan custom_validate_statistics
untuk menjalankan validasi khusus saja.
Mengonfigurasi Validasi Data Khusus
Gunakan CustomValidationConfig untuk menentukan validasi khusus yang akan dijalankan. Untuk setiap validasi, berikan ekspresi SQL, yang mengembalikan nilai boolean. Setiap ekspresi SQL dijalankan berdasarkan statistik ringkasan untuk fitur tertentu. Jika ekspresi mengembalikan false, TFDV menghasilkan anomali khusus menggunakan deskripsi tingkat keparahan dan anomali yang disediakan.
Anda dapat mengonfigurasi validasi khusus yang dijalankan terhadap masing-masing fitur atau pasangan fitur. Untuk setiap fitur, tentukan kumpulan data (yaitu potongan) dan jalur fitur yang akan digunakan, meskipun Anda dapat membiarkan nama kumpulan data kosong jika Anda ingin memvalidasi potongan default (yaitu semua contoh). Untuk validasi fitur tunggal, statistik fitur terikat pada feature
. Untuk validasi pasangan fitur, statistik fitur pengujian terikat pada feature_test
dan statistik fitur dasar terikat pada feature_base
. Lihat bagian di bawah untuk contoh kueri.
Jika validasi khusus memicu anomali, TFDV akan mengembalikan proto Anomali dengan alasan anomali tersebut. Setiap alasan akan memiliki deskripsi singkat, yang dikonfigurasi pengguna, dan deskripsi dengan kueri yang menyebabkan anomali, nama kumpulan data tempat kueri dijalankan, dan jalur fitur dasar (jika menjalankan validasi pasangan fitur). Lihat bagian di bawah untuk contoh hasil validasi khusus.
Lihat dokumentasi di proto CustomValidationConfig
untuk contoh konfigurasi.