TFDV از اعتبارسنجی داده های سفارشی با استفاده از SQL پشتیبانی می کند. می توانید اعتبارسنجی داده های سفارشی را با استفاده از validate_statistics یا custom_validate_statistics اجرا کنید. از validate_statistics
برای اجرای اعتبار سنجی داده های استاندارد و مبتنی بر طرحواره همراه با اعتبارسنجی سفارشی استفاده کنید. از custom_validate_statistics
برای اجرای فقط اعتبارسنجی سفارشی استفاده کنید.
پیکربندی اعتبارسنجی داده های سفارشی
از CustomValidationConfig برای تعریف اعتبارسنجی سفارشی برای اجرا استفاده کنید. برای هر اعتبارسنجی، یک عبارت SQL ارائه کنید که یک مقدار بولی را برمی گرداند. هر عبارت SQL در برابر آمار خلاصه برای ویژگی مشخص شده اجرا می شود. اگر عبارت false برگرداند، TFDV با استفاده از شدت و توصیف ناهنجاری ارائه شده، یک ناهنجاری سفارشی ایجاد می کند.
میتوانید اعتبارسنجیهای سفارشی را پیکربندی کنید که در برابر ویژگیهای فردی یا جفت ویژگیها اجرا شوند. برای هر ویژگی، هم مجموعه داده (یعنی برش) و هم مسیر ویژگی مورد استفاده را مشخص کنید، اگرچه اگر میخواهید برش پیشفرض را تأیید کنید (یعنی همه نمونهها) میتوانید نام مجموعه را خالی بگذارید. برای اعتبارسنجی یک ویژگی، آمار ویژگی ملزم به feature
است. برای اعتبارسنجی جفت ویژگی، آمار ویژگی های آزمایشی به feature_test
و آمار ویژگی های پایه به feature_base
محدود می شود. برای نمونه سوالات به بخش زیر مراجعه کنید.
اگر اعتبار سنجی سفارشی یک ناهنجاری را راهاندازی کند، TFDV یک پروتوی ناهنجاری را با دلیل(های) ناهنجاری برمیگرداند. هر دلیل دارای یک توضیح کوتاه است که توسط کاربر پیکربندی شده است، و توضیحی با پرس و جوی که باعث ناهنجاری شده است، نام مجموعه داده ای که پرس و جو بر روی آن اجرا شده است، و مسیر ویژگی پایه (در صورت اجرای اعتبارسنجی جفت ویژگی). برای نمونه نتایج اعتبارسنجی سفارشی به بخش زیر مراجعه کنید.
برای نمونه تنظیمات، مستندات موجود در پروتو CustomValidationConfig
را ببینید.