TFDV תומך באימות נתונים מותאם אישית באמצעות SQL. אתה יכול להפעיל אימות נתונים מותאם אישית באמצעות validate_statistics או custom_validate_statistics . השתמש validate_statistics
כדי להפעיל אימות נתונים סטנדרטי מבוסס סכימה יחד עם אימות מותאם אישית. השתמש custom_validate_statistics
כדי להפעיל רק אימות מותאם אישית.
הגדרת אימות נתונים מותאם אישית
השתמש ב- CustomValidationConfig כדי להגדיר אימותים מותאמים אישית להפעלה. עבור כל אימות, ספק ביטוי SQL, המחזיר ערך בוליאני. כל ביטוי SQL מופעל מול הסטטיסטיקות הסיכום של התכונה שצוינה. אם הביטוי מחזיר false, TFDV יוצר אנומליה מותאמת אישית באמצעות תיאור החומרה והחריגה שסופקו.
אתה יכול להגדיר אימותים מותאמים אישית הפועלים מול תכונות או צמדי תכונות בודדים. עבור כל תכונה, ציין גם את מערך הנתונים (כלומר, פרוסה) וגם את נתיב התכונה לשימוש, אם כי תוכל להשאיר את שם מערך הנתונים ריק אם ברצונך לאמת את פרוסת ברירת המחדל (כלומר, את כל הדוגמאות). עבור אימות תכונה בודדת, הנתונים הסטטיסטיים של התכונה מחויבים feature
. עבור אימותים של צמד תכונות, הנתונים הסטטיסטיים של תכונת הבדיקה מחויבים ל- feature_test
והסטטיסטיקות של התכונות הבסיסיות מחויבות ל- feature_base
. עיין בסעיף למטה לשאילתות לדוגמה.
אם אימות מותאם אישית גורם לאנומליה, TFDV יחזיר פרוטו אנומליות עם הסיבה לאנומליה. לכל סיבה יהיה תיאור קצר, המוגדר על ידי המשתמש, ותיאור עם השאילתה שגרמה לאנומליה, שמות הנתונים של הנתונים שבהם השאילתה בוצעה, ונתיב התכונות הבסיסי (אם מפעילים אימות זוג תכונה). עיין בסעיף למטה לתוצאות לדוגמה של אימות מותאם אישית.
ראה את התיעוד בפרוטו CustomValidationConfig
למשל תצורות.