TFDV با مقایسه طرحواره و پروتوهای آماری، ناهنجاریها را بررسی میکند. نمودار زیر انواع ناهنجاریهایی را که TFDV میتواند شناسایی کند، فیلدهای طرحواره و آماری که برای تشخیص هر نوع ناهنجاری استفاده میشوند، و شرایطی که تحت آن هر نوع ناهنجاری شناسایی میشود، فهرست میکند.
BOOL_TYPE_BIG_INT
- فیلدهای طرحواره:
-
feature.bool_domain
-
- زمینه های آماری:
-
features.num_stats.max
-
features.type
-
- شرایط تشخیص:
-
feature.bool_domain
مشخص شده است و -
features.type
==INT
و -
features.num_stats.max
> 1
-
- فیلدهای طرحواره:
BOOL_TYPE_BYTES_NOT_INT
- نوع ناهنجاری در TFDV شناسایی نشد
BOOL_TYPE_BYTES_NOT_STRING
- نوع ناهنجاری در TFDV شناسایی نشد
BOOL_TYPE_FLOAT_NOT_INT
- نوع ناهنجاری در TFDV شناسایی نشد
BOOL_TYPE_FLOAT_NOT_STRING
- نوع ناهنجاری در TFDV شناسایی نشد
BOOL_TYPE_INT_NOT_STRING
- نوع ناهنجاری در TFDV شناسایی نشد
BOOL_TYPE_SMALL_INT
- فیلدهای طرحواره:
-
feature.bool_domain
-
- زمینه های آماری:
-
features.num_stats.min
-
features.type
-
- شرایط تشخیص:
-
features.type
==INT
و -
feature.bool_domain
مشخص شده است و -
features.num_stats.min
< 0
-
- فیلدهای طرحواره:
BOOL_TYPE_STRING_NOT_INT
- نوع ناهنجاری در TFDV شناسایی نشده است
BOOL_TYPE_UNEXPECTED_STRING
- فیلدهای طرحواره:
-
feature.bool_domain
-
- زمینه های آماری:
-
features.string_stats.rank_histogram
*
-
- شرایط تشخیص:
-
features.type
==STRING
و -
feature.bool_domain
مشخص شده است و - حداقل یک مقدار در
rank_histogram
*feature.bool_domain.true_value
یاfeature.bool_domain.false_value
نیست.
-
- فیلدهای طرحواره:
BOOL_TYPE_UNEXPECTED_FLOAT
- فیلدهای طرحواره:
-
feature.bool_domain
-
- زمینه های آماری:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- شرایط تشخیص:
-
features.type
==FLOAT
و -
feature.bool_domain
مشخص شده است و یا- (
features.num_stats.min
!= 0 یاfeatures.num_stats.min
!= 1) یا - (
features.num_stats.max
!= 0 یاfeatures.num_stats.max
!= 1) یا -
features.num_stats.histograms.num_nan
> 0 or - (
features.num_stats.histograms.buckets.low_value
!= 0 یاfeatures.num_stats.histograms.buckets.high_value
!= 1) وfeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- فیلدهای طرحواره:
BOOL_TYPE_INVALID_CONFIG
- فیلدهای طرحواره:
-
feature.bool_domain
-
- زمینه های آماری:
-
features.type
-
- شرایط تشخیص:
- اگر
features.type
==INT
یاFLOAT
،-
feature.bool_domain
مشخص شده است و -
feature.bool_domain.true_value
یاfeature.bool_domain.false_value
مشخص شده است، یا
-
- if
features.type
==STRING
،-
feature.bool_domain
مشخص شده است و -
feature.bool_domain.true_value
وfeature.bool_domain.false_value
مشخص نشده اند
-
- اگر
- فیلدهای طرحواره:
ENUM_TYPE_BYTES_NOT_STRING
- نوع ناهنجاری در TFDV شناسایی نشده است
ENUM_TYPE_FLOAT_NOT_STRING
- نوع ناهنجاری در TFDV شناسایی نشده است
ENUM_TYPE_INT_NOT_STRING
- نوع ناهنجاری در TFDV شناسایی نشده است
ENUM_TYPE_INVALID_UTF8
- زمینه های آماری:
-
features.string_stats.invalid_utf8_count
-
- شرایط تشخیص:
-
invalid_utf8_count
> 0
-
- زمینه های آماری:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- فیلدهای طرحواره:
-
string_domain
وfeature.domain
; یاfeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- زمینه های آماری:
-
features.string_stats.rank_histogram
*
-
- شرایط تشخیص:
- یا (تعداد مقادیر در
rank_histogram
* که در دامنه نیستند / تعداد کل مقادیر) > (1 -feature.distribution_constraints.min_domain_mass
) یا -
feature.distribution_constraints.min_domain_mass
== 1.0 و مقادیری در هیستوگرام وجود دارد که در دامنه نیستند
- یا (تعداد مقادیر در
- فیلدهای طرحواره:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- فیلدهای طرحواره:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- زمینه های آماری:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- شرایط تشخیص:
- اگر
feature.value_count.max
مشخص شده باشد-
features.common_stats.max_num_values
>feature.value_count.max
; یا
-
- اگر
feature.value_counts
مشخص شده باشد-
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
در سطح تودرتو معین
-
- اگر
- فیلدهای طرحواره:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- فیلدهای طرحواره:
-
feature.presence.min_fraction
-
- زمینه های آماری:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- شرایط تشخیص:
-
feature.presence.min_fraction
مشخص شده است و (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
یا -
feature.presence.min_fraction
== 1.0 وcommon_stats.num_missing
!= 0
-
- فیلدهای طرحواره:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- فیلدهای طرحواره:
-
feature.presence.min_count
-
- زمینه های آماری:
-
features.common_stats.num_non_missing
*
-
- شرایط تشخیص:
-
feature.presence.min_count
مشخص شده است و یا-
features.common_stats.num_non_missing
* == 0 یا -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- فیلدهای طرحواره:
FEATURE_TYPE_LOW_NUMBER_VALUES
- فیلدهای طرحواره:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- زمینه های آماری:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- شرایط تشخیص:
- اگر
feature.value_count.min
مشخص شده باشد-
features.common_stats.min_num_values
<feature.value_count.min
; یا
-
- اگر
feature.value_counts
مشخص شده باشد-
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
در یک سطح تودرتوی معین
-
- اگر
- فیلدهای طرحواره:
FEATURE_TYPE_NOT_PRESENT
- فیلدهای طرحواره:
-
feature.in_environment
یاfeature.not_in_environment
یاschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
یاfeature.presence.min_fraction
-
- زمینه های آماری:
-
features.common_stats.num_non_missing
*
-
- شرایط تشخیص:
-
feature.lifecycle_stage
در [PLANNED
,ALPHA
,DEBUG
,DEPRECATED
] نیست و -
common_stats.num_non_missing
* == 0 و - (
feature.presence.min_count
> 0 یاfeature.presence.min_fraction
> 0) و یکی-
feature.in_environment
== محیط فعلی یا -
feature.not_in_environment
!= محیط فعلی یا -
schema.default_environment
!= محیط فعلی
-
-
- فیلدهای طرحواره:
FEATURE_TYPE_NO_VALUES
- نوع ناهنجاری در TFDV شناسایی نشده است
FEATURE_TYPE_UNEXPECTED_REPEATED
- نوع ناهنجاری در TFDV شناسایی نشده است
FEATURE_TYPE_HIGH_UNIQUE
- فیلدهای طرحواره:
-
feature.unique_constraints.max
-
- زمینه های آماری:
-
features.string_stats.unique
-
- شرایط تشخیص:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- فیلدهای طرحواره:
FEATURE_TYPE_LOW_UNIQUE
- فیلدهای طرحواره:
-
feature.unique_constraints.min
-
- زمینه های آماری:
-
features.string_stats.unique
-
- شرایط تشخیص:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- فیلدهای طرحواره:
FEATURE_TYPE_NO_UNIQUE
- فیلدهای طرحواره:
-
feature.unique_constraints
-
- زمینه های آماری:
-
features.string_stats.unique
-
- شرایط تشخیص:
-
feature.unique_constraints
مشخص شده است اماfeatures.string_stats.unique
وجود ندارد (مانند موردی که این ویژگی یک رشته یا دسته بندی نیست)
-
- فیلدهای طرحواره:
FLOAT_TYPE_BIG_FLOAT
- فیلدهای طرحواره:
-
feature.float_domain.max
-
- زمینه های آماری:
-
features.type
-
features.num_stats.max
یاfeatures.string_stats.rank_histogram
-
- شرایط تشخیص:
- اگر
features.type
==FLOAT
،-
features.num_stats.max
>feature.float_domain.max
; یا
-
- if
features.type
==BYTES
یاSTRING
،- حداکثر مقدار در
features.string_stats.rank_histogram
(در صورت تبدیل به float) >feature.float_domain.max
- حداکثر مقدار در
- اگر
- فیلدهای طرحواره:
FLOAT_TYPE_NOT_FLOAT
- نوع ناهنجاری در TFDV شناسایی نشده است
FLOAT_TYPE_SMALL_FLOAT
- فیلدهای طرحواره:
-
feature.float_domain.min
-
- زمینه های آماری:
-
features.type
-
features.num_stats.min
یاfeatures.string_stats.rank_histogram
-
- شرایط تشخیص:
- اگر
features.type
==FLOAT
،-
features.num_stats.min
<feature.float_domain.min
; یا
-
- if
features.type
==BYTES
یاSTRING
،- حداقل مقدار در
features.string_stats.rank_histogram
(در صورت تبدیل به float) <feature.float_domain.min
- حداقل مقدار در
- اگر
- فیلدهای طرحواره:
FLOAT_TYPE_STRING_NOT_FLOAT
- فیلدهای طرحواره:
-
feature.float_domain
-
- زمینه های آماری:
-
features.type
-
features.string_stats.rank_histogram
-
- شرایط تشخیص:
-
features.type
==BYTES
یاSTRING
و -
features.string_stats.rank_histogram
حداقل یک مقدار دارد که نمی توان آن را به float تبدیل کرد.
-
- فیلدهای طرحواره:
FLOAT_TYPE_NON_STRING
- نوع ناهنجاری در TFDV شناسایی نشده است
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- نوع ناهنجاری در TFDV شناسایی نشده است
FLOAT_TYPE_HAS_NAN
- فیلدهای طرحواره:
-
feature.float_domain.disallow_nan
-
- زمینه های آماری:
-
features.type
-
features.num_stats.histograms.num_nan
-
- شرایط تشخیص:
-
float_domain.disallow_nan
درست است و -
features.num_stats.histograms.num_nan
> 0
-
- فیلدهای طرحواره:
FLOAT_TYPE_HAS_INF
- فیلدهای طرحواره:
-
feature.float_domain.disallow_inf
-
- زمینه های آماری:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- شرایط تشخیص:
-
features.type
==FLOAT
-
float_domain.disallow_inf
درست است و یا-
features.num_stats.min
==inf/-inf
یا -
features.num_stats.max
==inf/-inf
-
-
- فیلدهای طرحواره:
INT_TYPE_BIG_INT
- فیلدهای طرحواره:
-
feature.int_domain.max
-
- زمینه های آماری:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- شرایط تشخیص:
- اگر
features.type
==INT
،-
features.num_stats.max
>feature.int_domain.max
; یا
-
- if
features.type
==BYTES
یاSTRING
،- حداکثر مقدار در
features.string_stats.rank_histogram
(در صورت تبدیل به int) >feature.int_domain.max
- حداکثر مقدار در
- اگر
- فیلدهای طرحواره:
INT_TYPE_INT_EXPECTED
- نوع ناهنجاری در TFDV شناسایی نشده است
INT_TYPE_NOT_INT_STRING
- فیلدهای طرحواره:
-
feature.int_domain
-
- زمینه های آماری:
-
features.type
-
features.string_stats.rank_histogram
-
- شرایط تشخیص:
-
features.type
==BYTES
یاSTRING
و -
features.string_stats.rank_histogram
حداقل یک مقدار دارد که نمی توان آن را به int تبدیل کرد
-
- فیلدهای طرحواره:
INT_TYPE_NOT_STRING
- نوع ناهنجاری در TFDV شناسایی نشده است
INT_TYPE_SMALL_INT
- فیلدهای طرحواره:
-
feature.int_domain.min
-
- زمینه های آماری:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- شرایط تشخیص:
- اگر
features.type
==INT
،-
features.num_stats.min
<feature.int_domain.min
; یا
-
- if
features.type
==BYTES
یاSTRING
،- حداقل مقدار در
features.string_stats.rank_histogram
(در صورت تبدیل به int) <feature.int_domain.min
- حداقل مقدار در
- اگر
- فیلدهای طرحواره:
INT_TYPE_STRING_EXPECTED
- نوع ناهنجاری در TFDV شناسایی نشده است
INT_TYPE_UNKNOWN_TYPE_NUMBER
- نوع ناهنجاری در TFDV شناسایی نشده است
LOW_SUPPORTED_IMAGE_FRACTION
- فیلدهای طرحواره:
-
feature.image_domain.minimum_supported_image_fraction
-
- زمینه های آماری:
-
features.custom_stats.rank_histogram
برای custom_stats با نامimage_format_histogram
. توجه داشته باشید که برای ایجاد image_format_histogram و انجام این اعتبارسنجی، آمار دامنه معنایی باید فعال باشد. آمار دامنه معنایی به طور پیش فرض ایجاد نمی شود.
-
- شرایط تشخیص:
- کسری از مقادیری که از انواع تصویر Tensorflow برای همه انواع تصویر پشتیبانی می شود، کمتر از
feature.image_domain.minimum_supported_image_fraction
است.
- کسری از مقادیری که از انواع تصویر Tensorflow برای همه انواع تصویر پشتیبانی می شود، کمتر از
- فیلدهای طرحواره:
SCHEMA_MISSING_COLUMN
- فیلدهای طرحواره:
-
feature.in_environment
یاfeature.not_in_environment
یاschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
یاfeature.presence.min_fraction
-
- شرایط تشخیص:
-
feature.lifecycle_stage
!=PLANNED
،ALPHA
،DEBUG
، یاDEPRECATED
و -
feature.presence.min_count
> 0 یاfeature.presence.min_fraction
> 0 و -
feature.in_environment
== محیط فعلی یاfeature.not_in_environment
!= محیط فعلی یاschema.default_environment
!= محیط فعلی و - هیچ ویژگی با نام/مسیر مشخص شده در پروتوی آمار یافت نمی شود
-
- فیلدهای طرحواره:
SCHEMA_NEW_COLUMN
- شرایط تشخیص:
- یک ویژگی در پروتو آمار وجود دارد اما هیچ ویژگی با نام/مسیر آن در پروتو طرحواره وجود ندارد
- شرایط تشخیص:
SCHEMA_TRAINING_SERVING_SKEW
- نوع ناهنجاری در TFDV شناسایی نشده است
STRING_TYPE_NOW_FLOAT
- نوع ناهنجاری در TFDV شناسایی نشده است
STRING_TYPE_NOW_INT
- نوع ناهنجاری در TFDV شناسایی نشده است
COMPARATOR_CONTROL_DATA_MISSING
- فیلدهای طرحواره:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- شرایط تشخیص:
- پروتوی آمار کنترلی (یعنی ارائه آمار برای چولگی یا آمار قبلی برای دریفت) در دسترس است اما ویژگی مشخص شده را ندارد.
- فیلدهای طرحواره:
COMPARATOR_TREATMENT_DATA_MISSING
- نوع ناهنجاری در TFDV شناسایی نشده است
COMPARATOR_L_INFTY_HIGH
- فیلدهای طرحواره:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- زمینه های آماری:
-
features.string_stats.rank_histogram
*
-
- شرایط تشخیص:
- هنجار L-بی نهایت بردار که نشان دهنده تفاوت بین شمارش نرمال شده از
features.string_stats.rank_histogram
* در آمار کنترل (یعنی آمار ارائه برای چوله یا آمار قبلی برای دریفت) و آمار درمان (یعنی آمار آموزش برای آمار skew یا فعلی برای دریفت) >feature.skew_comparator.infinity_norm.threshold
یاfeature.drift_comparator.infinity_norm.threshold
- هنجار L-بی نهایت بردار که نشان دهنده تفاوت بین شمارش نرمال شده از
- فیلدهای طرحواره:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- فیلدهای طرحواره:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- زمینه های آماری:
-
features.string_stats.rank_histogram
-
- شرایط تشخیص:
- تفاوت شمارش مطلق نرمال شده شمارش ارزش از
features.string_stats.rank_histogram
در آمار کنترل (یعنی آمار ارائهشده برای چولگی یا آمار قبلی برای دریفت) و آمار درمان (یعنی آمار تمرین برای چولگی یا آمار فعلی برای دریفت) بیشتر شد. feature.skew_comparator.normalized_abs_difference.threshold یا feature.drift_comparator.normalized_abs_difference.threshold. تفاوت های تعداد با تعداد کل در هر دو شرایط عادی می شود.
- تفاوت شمارش مطلق نرمال شده شمارش ارزش از
- فیلدهای طرحواره:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- فیلدهای طرحواره:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- زمینه های آماری:
-
features.num_stats.histograms
از نوعSTANDARD
-
features.string_stats.rank_histogram
*
-
- شرایط تشخیص:
- واگرایی تقریبی جنسن-شانون محاسبهشده بین در آمار کنترل (یعنی آمار ارائهشده برای چولگی یا آمار قبلی برای دریفت) و آمار درمان (یعنی آمار تمرین برای چولگی یا آمار فعلی برای دریفت) >
feature.skew_comparator.jensen_shannon_divergence.threshold
یاfeature.drift_comparator.jensen_shannon_divergence.threshold
. واگرایی تقریبی جنسن-شانون بر اساس تعداد نمونه های نرمال شده در هیستوگرام استانداردfeatures.num_stats.histograms
وfeatures.string_stats.rank_histogram
* محاسبه می شود.
- واگرایی تقریبی جنسن-شانون محاسبهشده بین در آمار کنترل (یعنی آمار ارائهشده برای چولگی یا آمار قبلی برای دریفت) و آمار درمان (یعنی آمار تمرین برای چولگی یا آمار فعلی برای دریفت) >
- فیلدهای طرحواره:
NO_DATA_IN_SPAN
- نوع ناهنجاری در TFDV شناسایی نشده است
SPARSE_FEATURE_MISSING_VALUE
- فیلدهای طرحواره:
-
sparse_feature.value_feature
-
- زمینه های آماری:
-
features.custom_stats
-
- شرایط تشخیص:
-
features.custom_stats
با "missing_value" به عنوان نام و -
missing_value
آمار سفارشی != 0
-
- فیلدهای طرحواره:
SPARSE_FEATURE_MISSING_INDEX
- فیلدهای طرحواره:
-
sparse_feature.index_feature
-
- زمینه های آماری:
-
features.custom_stats
-
- شرایط تشخیص:
-
features.custom_stats
با "missing_index" به عنوان نام و - آمار سفارشی
missing_index
حاوی هر مقدار != 0 است
-
- فیلدهای طرحواره:
SPARSE_FEATURE_LENGTH_MISMATCH
- فیلدهای طرحواره:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- زمینه های آماری:
-
features.custom_stats
-
- شرایط تشخیص:
-
features.custom_stats
با "min_length_diff" یا "max_length_diff" به عنوان نام - آمار سفارشی
min_length_diff
یاmax_length_diff
حاوی هر مقدار است!= 0
-
- فیلدهای طرحواره:
SPARSE_FEATURE_NAME_COLLISION
- فیلدهای طرحواره:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- شرایط تشخیص:
-
sparse_feature.lifecycle_stage
!=PLANNED
،ALPHA
،DEBUG
، یاDEPRECATED
، و -
feature.lifecycle_stage
!=PLANNED
،ALPHA
،DEBUG
، یاDEPRECATED
، و -
sparse_feature.name
==feature.name
-
- فیلدهای طرحواره:
SEMANTIC_DOMAIN_UPDATE
- فیلدهای طرحواره:
-
feature.domain_info
-
- زمینه های آماری:
-
features.custom_stats
-
- شرایط تشخیص:
-
features.custom_stats
با "domain_info" به عنوان نام و -
feature.domain_info
قبلاً در این طرح تنظیم نشده است - یک آمار سفارشی
domain_info
برای این ویژگی وجود دارد
-
- فیلدهای طرحواره:
COMPARATOR_LOW_NUM_EXAMPLES
- فیلدهای طرحواره:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- زمینه های آماری:
-
num_examples
*
-
- شرایط تشخیص:
-
num_examples
* > 0 و - پروتو آمار قبلی موجود است و
-
num_examples
* / آمار قبلیnum_examples
* < مقایسه کنندهmin_fraction_threshold
-
- فیلدهای طرحواره:
COMPARATOR_HIGH_NUM_EXAMPLES
- فیلدهای طرحواره:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- زمینه های آماری:
-
num_examples
*
-
- شرایط تشخیص:
-
num_examples
* > 0 و - پروتو آمار قبلی موجود است و
-
num_examples
* / آمار قبلیnum_examples
* >max_fraction_threshold
مقایسه کننده
-
- فیلدهای طرحواره:
DATASET_LOW_NUM_EXAMPLES
- فیلدهای طرحواره:
-
schema.dataset_constraints.min_examples_count
-
- زمینه های آماری:
-
num_examples
*
-
- شرایط تشخیص:
-
num_examples
* <dataset_constraints.min_examples_count
-
- فیلدهای طرحواره:
DATASET_HIGH_NUM_EXAMPLES
- فیلدهای طرحواره:
-
schema.dataset_constraints.max_examples_count
-
- زمینه های آماری:
-
num_examples
*
-
- شرایط تشخیص:
-
num_examples
* >dataset_constraints.max_examples_count
-
- فیلدهای طرحواره:
WEIGHTED_FEATURE_NAME_COLLISION
- فیلدهای طرحواره:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- شرایط تشخیص:
-
weighted_feature.lifecycle_stage
!=PLANNED
،ALPHA
،DEBUG
، یاDEPRECATED
و یکی- اگر
feature.lifecycle_stage
!=PLANNED
،ALPHA
،DEBUG
، یاDEPRECATED
،-
weighted_feature.name
==feature.name
; یا
-
- اگر
sparse_feature.lifecycle_stage
!=PLANNED
،ALPHA
،DEBUG
، یاDEPRECATED
،-
weighted_feature.name
==sparse_feature.name
-
- اگر
-
- فیلدهای طرحواره:
WEIGHTED_FEATURE_MISSING_VALUE
- فیلدهای طرحواره:
-
weighted_feature.feature
-
- زمینه های آماری:
-
features.custom_stats
-
- شرایط تشخیص:
-
features.custom_stats
با "missing_value" به عنوان نام و -
missing_value
آمار سفارشی != 0
-
- فیلدهای طرحواره:
WEIGHTED_FEATURE_MISSING_WEIGHT
- فیلدهای طرحواره:
-
weighted_feature.weight_feature
-
- زمینه های آماری:
-
features.custom_stats
-
- شرایط تشخیص:
-
features.custom_stats
با "missing_weight" به عنوان نام و -
missing_weight
آمار سفارشی != 0
-
- فیلدهای طرحواره:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- فیلدهای طرحواره:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- زمینه های آماری:
-
features.custom_stats
-
- شرایط تشخیص:
-
features.custom_stats
با "min_weighted_length_diff" یا "max_weight_length_diff" به عنوان نام، و - آمار سفارشی
min_weight_length_diff
یاmax_weight_length_diff
!= 0
-
- فیلدهای طرحواره:
VALUE_NESTEDNESS_MISMATCH
- فیلدهای طرحواره:
-
feature.value_count
-
feature.value_counts
-
- زمینه های آماری:
-
features.common_stats.presence_and_valency_stats
-
- شرایط تشخیص:
-
feature.value_count
مشخص شده است، وpresence_and_valency_stats
مکرر از ویژگی وجود دارد (که نشان دهنده سطح تودرتو است که بیشتر از یک است) و -
feature.value_counts
مشخص شده است، و تعداد دفعاتی کهpresence_and_valency_stats
ویژگی با تعداد دفعاتی کهvalue_count
درfeature.value_counts
تکرار می شود مطابقت ندارد.
-
- فیلدهای طرحواره:
DOMAIN_INVALID_FOR_TYPE
- فیلدهای طرحواره:
-
feature.type
-
feature.domain_info
-
- زمینه های آماری:
-
features.type
-
- شرایط تشخیص:
- اگر
features.type
==BYTES
،-
feature.domain_info
از نوع ناسازگار است. یا
-
- if
features.type
!=BYTES
-
feature.domain_info
باfeature.type
مطابقت ندارد (مثلاًint_domain
مشخص شده است، اماtype
ویژگیFLOAT
است)
-
- اگر
- فیلدهای طرحواره:
FEATURE_MISSING_NAME
- فیلدهای طرحواره:
-
feature.name
-
- شرایط تشخیص:
-
feature.name
مشخص نشده است
-
- فیلدهای طرحواره:
FEATURE_MISSING_TYPE
- فیلدهای طرحواره:
-
feature.type
-
- شرایط تشخیص:
-
feature.type
مشخص نشده است
-
- فیلدهای طرحواره:
INVALID_SCHEMA_SPECIFICATION
- فیلدهای طرحواره:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- شرایط تشخیص:
-
feature.presence.min_fraction
< 0.0 یا > 1.0 یا -
feature.value_count.min
< 0 یا >feature.value_count.max
، یا - یک bool، int، float، struct یا دامنه معنایی برای یک ویژگی و
feature.distribution_constraints
نیز برای آن ویژگی مشخص شده است، یا -
feature.distribution_constraints
برای یک ویژگی مشخص شده است، اما نه یک دامنه در سطح طرحواره و نهfeature.string_domain
برای آن ویژگی مشخص نشده است.
-
- فیلدهای طرحواره:
INVALID_DOMAIN_SPECIFICATION
- فیلدهای طرحواره:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- شرایط تشخیص:
- نوع
feature.domain_info
ناشناس مشخص شده است یا -
feature.domain
مشخص شده است، اما هیچ دامنه منطبقی در سطح طرح مشخص نشده است، یا - اگر
feature.bool_domain
،feature.bool_domain.true_value
، وfeature.bool_domain.false_value
مشخص شده باشند،-
feature.bool_domain.true_value
==feature.bool_domain.false_value
، یا
-
- اگر
feature.string_domain
مشخص شده باشد،-
feature.string_domain.values
یا تکراری دارد -
feature.string_domain
از حداکثر اندازه بیشتر است
-
- نوع
- فیلدهای طرحواره:
UNEXPECTED_DATA_TYPE
- فیلدهای طرحواره:
-
feature.type
-
- زمینه های آماری:
-
features.type
-
- شرایط تشخیص:
-
features.type
از نوع مشخص شده درfeature.type
نیست
-
- فیلدهای طرحواره:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- فیلدهای طرحواره:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- زمینه های آماری:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- شرایط تشخیص:
-
min_per_sequence
>per_sequence_min_frequency
-
- فیلدهای طرحواره:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- فیلدهای طرحواره:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- زمینه های آماری:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- شرایط تشخیص:
-
max_per_sequence
<per_sequence_max_frequency
-
- فیلدهای طرحواره:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- فیلدهای طرحواره:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- زمینه های آماری:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- شرایط تشخیص:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- فیلدهای طرحواره:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- فیلدهای طرحواره:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- زمینه های آماری:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- شرایط تشخیص:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- فیلدهای طرحواره:
FEATURE_COVERAGE_TOO_LOW
- فیلدهای طرحواره:
-
feature.natural_language_domain.coverage.min_coverage
-
- زمینه های آماری:
-
features.custom_stats.nl_statistics.feature_coverage
-
- شرایط تشخیص:
-
feature_coverage
<coverage.min_coverage
-
- فیلدهای طرحواره:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- فیلدهای طرحواره:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- زمینه های آماری:
-
features.custom_stats.nl_statistics.avg_token_length
-
- شرایط تشخیص:
-
avg_token_length
<min_avg_token_length
-
- فیلدهای طرحواره:
NLP_WRONG_LOCATION
- نوع ناهنجاری در TFDV شناسایی نشده است
EMBEDDING_SHAPE_INVALID
- نوع ناهنجاری در TFDV شناسایی نشده است
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- فیلدهای طرحواره:
-
feature.image_domain.max_image_byte_size
-
- زمینه های آماری:
-
features.bytes_stats.max_num_bytes_int
-
- شرایط تشخیص:
-
max_num_bytes_int
>max_image_byte_size
-
- فیلدهای طرحواره:
INVALID_FEATURE_SHAPE
- فیلدهای طرحواره:
-
feature.shape
-
- زمینه های آماری:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- شرایط تشخیص:
-
feature.shape
مشخص شده است و یا- این ویژگی ممکن است در برخی از سطوح لانه وجود نداشته باشد (
num_missing
!= 0). - این ویژگی ممکن است دارای تعداد متغیری از مقادیر (
min_num_values
!=max_num_values
) در برخی از سطوح آشیانه یا - شکل مشخص شده با آمار شمارش ارزش ویژگی سازگار نیست. برای مثال، شکل
[16]
با (min_num_values
==max_num_values
==[2, 2, 4]
(برای یک ویژگی 3 تو در تو)) سازگار است.
- این ویژگی ممکن است در برخی از سطوح لانه وجود نداشته باشد (
-
- فیلدهای طرحواره:
STATS_NOT_AVAILBLE
- ناهنجاری زمانی رخ می دهد که آمار مورد نیاز برای اعتبارسنجی محدودیت ها وجود نداشته باشد.
DERIVED_FEATURE_BAD_LIFECYCLE
- فیلدهای طرحواره:
-
feature.lifecycle_stage
-
- زمینه های آماری:
-
features.validation_derived_source
-
- شرایط تشخیص:
-
feature.lifecycle_stage
یکی ازDERIVED
یاDISABLED
نیست وfeatures.validation_derived_source
وجود دارد که نشان می دهد این یک ویژگی مشتق شده است.
-
- فیلدهای طرحواره:
DERIVED_FEATURE_INVALID_SOURCE
- فیلدهای طرحواره:
-
feature.validation_derived_source
-
- زمینه های آماری:
-
features.validation_derived_source
-
- شرایط تشخیص:
-
features.validation_derived_source
برای یک ویژگی وجود دارد، اماfeature.validation_derived_source
مربوطه وجود ندارد.
-
- فیلدهای طرحواره:
* در صورتی که آمار وزنی برای این رشته موجود باشد، به جای آماره غیر وزنی از آن استفاده می شود.