يدعم TFDV التحقق من صحة البيانات المخصصة باستخدام SQL. يمكنك تشغيل التحقق من صحة البيانات المخصصة باستخدام validate_statistics أو custom_validate_statistics . استخدم validate_statistics
لتشغيل التحقق من صحة البيانات القياسي والمستند إلى المخطط بالإضافة إلى التحقق المخصص. استخدم custom_validate_statistics
لتشغيل التحقق المخصص فقط.
تكوين التحقق من صحة البيانات المخصصة
استخدم CustomValidationConfig لتحديد عمليات التحقق المخصصة للتشغيل. لكل عملية تحقق من الصحة، قم بتوفير تعبير SQL الذي يقوم بإرجاع قيمة منطقية. يتم تشغيل كل تعبير SQL مقابل إحصائيات الملخص للميزة المحددة. إذا قام التعبير بإرجاع خطأ، فسيقوم TFDV بإنشاء حالة شاذة مخصصة باستخدام الخطورة ووصف الشذوذ المقدم.
يمكنك تكوين عمليات التحقق المخصصة التي تعمل على الميزات الفردية أو أزواج الميزات. بالنسبة لكل ميزة، حدد كلاً من مجموعة البيانات (أي الشريحة) ومسار الميزة المراد استخدامها، على الرغم من أنه يمكنك ترك اسم مجموعة البيانات فارغًا إذا كنت تريد التحقق من صحة الشريحة الافتراضية (أي جميع الأمثلة). بالنسبة لعمليات التحقق من صحة الميزة الفردية، ترتبط إحصائيات الميزة feature
. بالنسبة للتحقق من صحة زوج الميزات، ترتبط إحصائيات ميزات الاختبار بـ feature_test
وترتبط إحصائيات الميزات الأساسية بـ feature_base
. راجع القسم أدناه للحصول على أمثلة الاستعلامات.
إذا أدى التحقق المخصص إلى حدوث حالة شاذة، فسيقوم TFDV بإرجاع نموذج أولي من الحالات الشاذة مع سبب (أسباب) الحالة الشاذة. سيكون لكل سبب وصفًا قصيرًا، تم تكوينه بواسطة المستخدم، ووصفًا للاستعلام الذي تسبب في حدوث الحالة الشاذة، وأسماء مجموعات البيانات التي تم تشغيل الاستعلام عليها، ومسار الميزة الأساسية (في حالة تشغيل التحقق من صحة زوج الميزات). راجع القسم أدناه للحصول على أمثلة لنتائج التحقق المخصص.
راجع الوثائق في نموذج CustomValidationConfig
للحصول على التكوينات على سبيل المثال.