اعتبارسنجی داده های سفارشی

TFDV از اعتبارسنجی داده های سفارشی با استفاده از SQL پشتیبانی می کند. می توانید اعتبارسنجی داده های سفارشی را با استفاده از validate_statistics یا custom_validate_statistics اجرا کنید. از validate_statistics برای اجرای اعتبار سنجی داده های استاندارد و مبتنی بر طرحواره همراه با اعتبارسنجی سفارشی استفاده کنید. از custom_validate_statistics برای اجرای فقط اعتبارسنجی سفارشی استفاده کنید.

پیکربندی اعتبارسنجی داده های سفارشی

از CustomValidationConfig برای تعریف اعتبارسنجی سفارشی برای اجرا استفاده کنید. برای هر اعتبارسنجی، یک عبارت SQL ارائه کنید که یک مقدار بولی را برمی گرداند. هر عبارت SQL در برابر آمار خلاصه برای ویژگی مشخص شده اجرا می شود. اگر عبارت false برگرداند، TFDV با استفاده از شدت و توصیف ناهنجاری ارائه شده، یک ناهنجاری سفارشی ایجاد می کند.

می‌توانید اعتبارسنجی‌های سفارشی را پیکربندی کنید که در برابر ویژگی‌های فردی یا جفت ویژگی‌ها اجرا شوند. برای هر ویژگی، هم مجموعه داده (یعنی برش) و هم مسیر ویژگی مورد استفاده را مشخص کنید، اگرچه اگر می‌خواهید برش پیش‌فرض را تأیید کنید (یعنی همه نمونه‌ها) می‌توانید نام مجموعه را خالی بگذارید. برای اعتبارسنجی یک ویژگی، آمار ویژگی ملزم به feature است. برای اعتبارسنجی جفت ویژگی، آمار ویژگی های آزمایشی به feature_test و آمار ویژگی های پایه به feature_base محدود می شود. برای نمونه سوالات به بخش زیر مراجعه کنید.

اگر اعتبار سنجی سفارشی یک ناهنجاری را راه‌اندازی کند، TFDV یک پروتوی ناهنجاری را با دلیل(های) ناهنجاری برمی‌گرداند. هر دلیل دارای یک توضیح کوتاه است که توسط کاربر پیکربندی شده است، و توضیحی با پرس و جوی که باعث ناهنجاری شده است، نام مجموعه داده ای که پرس و جو بر روی آن اجرا شده است، و مسیر ویژگی پایه (در صورت اجرای اعتبارسنجی جفت ویژگی). برای نمونه نتایج اعتبارسنجی سفارشی به بخش زیر مراجعه کنید.

برای نمونه تنظیمات، مستندات موجود در پروتو CustomValidationConfig را ببینید.