مرجع ناهنجاری های اعتبارسنجی داده های TensorFlow

TFDV با مقایسه طرح‌واره و پروتوهای آماری، ناهنجاری‌ها را بررسی می‌کند. نمودار زیر انواع ناهنجاری‌هایی را که TFDV می‌تواند شناسایی کند، فیلدهای طرح‌واره و آماری که برای تشخیص هر نوع ناهنجاری استفاده می‌شوند، و شرایطی که تحت آن هر نوع ناهنجاری شناسایی می‌شود، فهرست می‌کند.

  • BOOL_TYPE_BIG_INT

    • فیلدهای طرحواره:
      • feature.bool_domain
    • زمینه های آماری:
      • features.num_stats.max
      • features.type
    • شرایط تشخیص:
      • feature.bool_domain مشخص شده است و
      • features.type == INT و
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • نوع ناهنجاری در TFDV شناسایی نشد
  • BOOL_TYPE_BYTES_NOT_STRING

    • نوع ناهنجاری در TFDV شناسایی نشد
  • BOOL_TYPE_FLOAT_NOT_INT

    • نوع ناهنجاری در TFDV شناسایی نشد
  • BOOL_TYPE_FLOAT_NOT_STRING

    • نوع ناهنجاری در TFDV شناسایی نشد
  • BOOL_TYPE_INT_NOT_STRING

    • نوع ناهنجاری در TFDV شناسایی نشد
  • BOOL_TYPE_SMALL_INT

    • فیلدهای طرحواره:
      • feature.bool_domain
    • زمینه های آماری:
      • features.num_stats.min
      • features.type
    • شرایط تشخیص:
      • features.type == INT و
      • feature.bool_domain مشخص شده است و
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • BOOL_TYPE_UNEXPECTED_STRING

    • فیلدهای طرحواره:
      • feature.bool_domain
    • زمینه های آماری:
      • features.string_stats.rank_histogram *
    • شرایط تشخیص:
      • features.type == STRING و
      • feature.bool_domain مشخص شده است و
      • حداقل یک مقدار در rank_histogram * feature.bool_domain.true_value یا feature.bool_domain.false_value نیست.
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • فیلدهای طرحواره:
      • feature.bool_domain
    • زمینه های آماری:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • شرایط تشخیص:
      • features.type == FLOAT و
      • feature.bool_domain مشخص شده است و یا
        • ( features.num_stats.min != 0 یا features.num_stats.min != 1) یا
        • ( features.num_stats.max != 0 یا features.num_stats.max != 1) یا
        • features.num_stats.histograms.num_nan > 0 or
        • ( features.num_stats.histograms.buckets.low_value != 0 یا features.num_stats.histograms.buckets.high_value != 1) و features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • فیلدهای طرحواره:
      • feature.bool_domain
    • زمینه های آماری:
      • features.type
    • شرایط تشخیص:
      • اگر features.type == INT یا FLOAT ،
        • feature.bool_domain مشخص شده است و
        • feature.bool_domain.true_value یا feature.bool_domain.false_value مشخص شده است، یا
      • if features.type == STRING ،
        • feature.bool_domain مشخص شده است و
        • feature.bool_domain.true_value و feature.bool_domain.false_value مشخص نشده اند
  • ENUM_TYPE_BYTES_NOT_STRING

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • ENUM_TYPE_FLOAT_NOT_STRING

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • ENUM_TYPE_INT_NOT_STRING

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • ENUM_TYPE_INVALID_UTF8

    • زمینه های آماری:
      • features.string_stats.invalid_utf8_count
    • شرایط تشخیص:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • فیلدهای طرحواره:
      • string_domain و feature.domain ; یا feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • زمینه های آماری:
      • features.string_stats.rank_histogram *
    • شرایط تشخیص:
      • یا (تعداد مقادیر در rank_histogram * که در دامنه نیستند / تعداد کل مقادیر) > (1 - feature.distribution_constraints.min_domain_mass ) یا
      • feature.distribution_constraints.min_domain_mass == 1.0 و مقادیری در هیستوگرام وجود دارد که در دامنه نیستند
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • فیلدهای طرحواره:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • زمینه های آماری:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • شرایط تشخیص:
      • اگر feature.value_count.max مشخص شده باشد
        • features.common_stats.max_num_values ​​> feature.value_count.max ; یا
      • اگر feature.value_counts مشخص شده باشد
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​در سطح تودرتو معین
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • فیلدهای طرحواره:
      • feature.presence.min_fraction
    • زمینه های آماری:
      • features.common_stats.num_non_missing *
      • num_examples *
    • شرایط تشخیص:
      • feature.presence.min_fraction مشخص شده است و ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction یا
      • feature.presence.min_fraction == 1.0 و common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • فیلدهای طرحواره:
      • feature.presence.min_count
    • زمینه های آماری:
      • features.common_stats.num_non_missing *
    • شرایط تشخیص:
      • feature.presence.min_count مشخص شده است و یا
        • features.common_stats.num_non_missing * == 0 یا
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • فیلدهای طرحواره:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • زمینه های آماری:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • شرایط تشخیص:
      • اگر feature.value_count.min مشخص شده باشد
        • features.common_stats.min_num_values ​​< feature.value_count.min ; یا
      • اگر feature.value_counts مشخص شده باشد
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min در یک سطح تودرتوی معین
  • FEATURE_TYPE_NOT_PRESENT

    • فیلدهای طرحواره:
      • feature.in_environment یا feature.not_in_environment یا schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count یا feature.presence.min_fraction
    • زمینه های آماری:
      • features.common_stats.num_non_missing *
    • شرایط تشخیص:
      • feature.lifecycle_stage در [ PLANNED , ALPHA , DEBUG , DEPRECATED ] نیست و
      • common_stats.num_non_missing * == 0 و
      • ( feature.presence.min_count > 0 یا feature.presence.min_fraction > 0) و یکی
        • feature.in_environment == محیط فعلی یا
        • feature.not_in_environment != محیط فعلی یا
        • schema.default_environment != محیط فعلی
  • FEATURE_TYPE_NO_VALUES

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • FEATURE_TYPE_HIGH_UNIQUE

    • فیلدهای طرحواره:
      • feature.unique_constraints.max
    • زمینه های آماری:
      • features.string_stats.unique
    • شرایط تشخیص:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • فیلدهای طرحواره:
      • feature.unique_constraints.min
    • زمینه های آماری:
      • features.string_stats.unique
    • شرایط تشخیص:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • فیلدهای طرحواره:
      • feature.unique_constraints
    • زمینه های آماری:
      • features.string_stats.unique
    • شرایط تشخیص:
      • feature.unique_constraints مشخص شده است اما features.string_stats.unique وجود ندارد (مانند موردی که این ویژگی یک رشته یا دسته بندی نیست)
  • FLOAT_TYPE_BIG_FLOAT

    • فیلدهای طرحواره:
      • feature.float_domain.max
    • زمینه های آماری:
      • features.type
      • features.num_stats.max یا features.string_stats.rank_histogram
    • شرایط تشخیص:
      • اگر features.type == FLOAT ،
        • features.num_stats.max > feature.float_domain.max ; یا
      • if features.type == BYTES یا STRING ،
        • حداکثر مقدار در features.string_stats.rank_histogram (در صورت تبدیل به float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • FLOAT_TYPE_SMALL_FLOAT

    • فیلدهای طرحواره:
      • feature.float_domain.min
    • زمینه های آماری:
      • features.type
      • features.num_stats.min یا features.string_stats.rank_histogram
    • شرایط تشخیص:
      • اگر features.type == FLOAT ،
        • features.num_stats.min < feature.float_domain.min ; یا
      • if features.type == BYTES یا STRING ،
        • حداقل مقدار در features.string_stats.rank_histogram (در صورت تبدیل به float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • فیلدهای طرحواره:
      • feature.float_domain
    • زمینه های آماری:
      • features.type
      • features.string_stats.rank_histogram
    • شرایط تشخیص:
      • features.type == BYTES یا STRING و
      • features.string_stats.rank_histogram حداقل یک مقدار دارد که نمی توان آن را به float تبدیل کرد.
  • FLOAT_TYPE_NON_STRING

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • FLOAT_TYPE_HAS_NAN

    • فیلدهای طرحواره:
      • feature.float_domain.disallow_nan
    • زمینه های آماری:
      • features.type
      • features.num_stats.histograms.num_nan
    • شرایط تشخیص:
      • float_domain.disallow_nan درست است و
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • فیلدهای طرحواره:
      • feature.float_domain.disallow_inf
    • زمینه های آماری:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • شرایط تشخیص:
      • features.type == FLOAT
      • float_domain.disallow_inf درست است و یا
        • features.num_stats.min == inf/-inf یا
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • فیلدهای طرحواره:
      • feature.int_domain.max
    • زمینه های آماری:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • شرایط تشخیص:
      • اگر features.type == INT ،
        • features.num_stats.max > feature.int_domain.max ; یا
      • if features.type == BYTES یا STRING ،
        • حداکثر مقدار در features.string_stats.rank_histogram (در صورت تبدیل به int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • INT_TYPE_NOT_INT_STRING

    • فیلدهای طرحواره:
      • feature.int_domain
    • زمینه های آماری:
      • features.type
      • features.string_stats.rank_histogram
    • شرایط تشخیص:
      • features.type == BYTES یا STRING و
      • features.string_stats.rank_histogram حداقل یک مقدار دارد که نمی توان آن را به int تبدیل کرد
  • INT_TYPE_NOT_STRING

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • INT_TYPE_SMALL_INT

    • فیلدهای طرحواره:
      • feature.int_domain.min
    • زمینه های آماری:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • شرایط تشخیص:
      • اگر features.type == INT ،
        • features.num_stats.min < feature.int_domain.min ; یا
      • if features.type == BYTES یا STRING ،
        • حداقل مقدار در features.string_stats.rank_histogram (در صورت تبدیل به int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • LOW_SUPPORTED_IMAGE_FRACTION

    • فیلدهای طرحواره:
      • feature.image_domain.minimum_supported_image_fraction
    • زمینه های آماری:
      • features.custom_stats.rank_histogram برای custom_stats با نام image_format_histogram . توجه داشته باشید که برای ایجاد image_format_histogram و انجام این اعتبارسنجی، آمار دامنه معنایی باید فعال باشد. آمار دامنه معنایی به طور پیش فرض ایجاد نمی شود.
    • شرایط تشخیص:
      • کسری از مقادیری که از انواع تصویر Tensorflow برای همه انواع تصویر پشتیبانی می شود، کمتر از feature.image_domain.minimum_supported_image_fraction است.
  • SCHEMA_MISSING_COLUMN

    • فیلدهای طرحواره:
      • feature.in_environment یا feature.not_in_environment یا schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count یا feature.presence.min_fraction
    • شرایط تشخیص:
      • feature.lifecycle_stage != PLANNED ، ALPHA ، DEBUG ، یا DEPRECATED و
      • feature.presence.min_count > 0 یا feature.presence.min_fraction > 0 و
      • feature.in_environment == محیط فعلی یا feature.not_in_environment != محیط فعلی یا schema.default_environment != محیط فعلی و
      • هیچ ویژگی با نام/مسیر مشخص شده در پروتوی آمار یافت نمی شود
  • SCHEMA_NEW_COLUMN

    • شرایط تشخیص:
      • یک ویژگی در پروتو آمار وجود دارد اما هیچ ویژگی با نام/مسیر آن در پروتو طرحواره وجود ندارد
  • SCHEMA_TRAINING_SERVING_SKEW

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • STRING_TYPE_NOW_FLOAT

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • STRING_TYPE_NOW_INT

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • COMPARATOR_CONTROL_DATA_MISSING

    • فیلدهای طرحواره:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • شرایط تشخیص:
      • پروتوی آمار کنترلی (یعنی ارائه آمار برای چولگی یا آمار قبلی برای دریفت) در دسترس است اما ویژگی مشخص شده را ندارد.
  • COMPARATOR_TREATMENT_DATA_MISSING

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • COMPARATOR_L_INFTY_HIGH

    • فیلدهای طرحواره:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • زمینه های آماری:
      • features.string_stats.rank_histogram *
    • شرایط تشخیص:
      • هنجار L-بی نهایت بردار که نشان دهنده تفاوت بین شمارش نرمال شده از features.string_stats.rank_histogram * در آمار کنترل (یعنی آمار ارائه برای چوله یا آمار قبلی برای دریفت) و آمار درمان (یعنی آمار آموزش برای آمار skew یا فعلی برای دریفت) > feature.skew_comparator.infinity_norm.threshold یا feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • فیلدهای طرحواره:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • زمینه های آماری:
      • features.string_stats.rank_histogram
    • شرایط تشخیص:
      • تفاوت شمارش مطلق نرمال شده شمارش ارزش از features.string_stats.rank_histogram در آمار کنترل (یعنی آمار ارائه‌شده برای چولگی یا آمار قبلی برای دریفت) و آمار درمان (یعنی آمار تمرین برای چولگی یا آمار فعلی برای دریفت) بیشتر شد. feature.skew_comparator.normalized_abs_difference.threshold یا feature.drift_comparator.normalized_abs_difference.threshold. تفاوت های تعداد با تعداد کل در هر دو شرایط عادی می شود.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • فیلدهای طرحواره:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • زمینه های آماری:
      • features.num_stats.histograms از نوع STANDARD
      • features.string_stats.rank_histogram *
    • شرایط تشخیص:
      • واگرایی تقریبی جنسن-شانون محاسبه‌شده بین در آمار کنترل (یعنی آمار ارائه‌شده برای چولگی یا آمار قبلی برای دریفت) و آمار درمان (یعنی آمار تمرین برای چولگی یا آمار فعلی برای دریفت) > feature.skew_comparator.jensen_shannon_divergence.threshold یا feature.drift_comparator.jensen_shannon_divergence.threshold . واگرایی تقریبی جنسن-شانون بر اساس تعداد نمونه های نرمال شده در هیستوگرام استاندارد features.num_stats.histograms و features.string_stats.rank_histogram * محاسبه می شود.
  • NO_DATA_IN_SPAN

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • SPARSE_FEATURE_MISSING_VALUE

    • فیلدهای طرحواره:
      • sparse_feature.value_feature
    • زمینه های آماری:
      • features.custom_stats
    • شرایط تشخیص:
      • features.custom_stats با "missing_value" به عنوان نام و
      • missing_value آمار سفارشی != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • فیلدهای طرحواره:
      • sparse_feature.index_feature
    • زمینه های آماری:
      • features.custom_stats
    • شرایط تشخیص:
      • features.custom_stats با "missing_index" به عنوان نام و
      • آمار سفارشی missing_index حاوی هر مقدار != 0 است
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • فیلدهای طرحواره:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • زمینه های آماری:
      • features.custom_stats
    • شرایط تشخیص:
      • features.custom_stats با "min_length_diff" یا "max_length_diff" به عنوان نام
      • آمار سفارشی min_length_diff یا max_length_diff حاوی هر مقدار است!= 0
  • SPARSE_FEATURE_NAME_COLLISION

    • فیلدهای طرحواره:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • شرایط تشخیص:
      • sparse_feature.lifecycle_stage != PLANNED ، ALPHA ، DEBUG ، یا DEPRECATED ، و
      • feature.lifecycle_stage != PLANNED ، ALPHA ، DEBUG ، یا DEPRECATED ، و
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • فیلدهای طرحواره:
      • feature.domain_info
    • زمینه های آماری:
      • features.custom_stats
    • شرایط تشخیص:
      • features.custom_stats با "domain_info" به عنوان نام و
      • feature.domain_info قبلاً در این طرح تنظیم نشده است
      • یک آمار سفارشی domain_info برای این ویژگی وجود دارد
  • COMPARATOR_LOW_NUM_EXAMPLES

    • فیلدهای طرحواره:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • زمینه های آماری:
      • num_examples *
    • شرایط تشخیص:
      • num_examples * > 0 و
      • پروتو آمار قبلی موجود است و
      • num_examples * / آمار قبلی num_examples * < مقایسه کننده min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • فیلدهای طرحواره:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • زمینه های آماری:
      • num_examples *
    • شرایط تشخیص:
      • num_examples * > 0 و
      • پروتو آمار قبلی موجود است و
      • num_examples * / آمار قبلی num_examples * > max_fraction_threshold مقایسه کننده
  • DATASET_LOW_NUM_EXAMPLES

    • فیلدهای طرحواره:
      • schema.dataset_constraints.min_examples_count
    • زمینه های آماری:
      • num_examples *
    • شرایط تشخیص:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • فیلدهای طرحواره:
      • schema.dataset_constraints.max_examples_count
    • زمینه های آماری:
      • num_examples *
    • شرایط تشخیص:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • فیلدهای طرحواره:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • شرایط تشخیص:
      • weighted_feature.lifecycle_stage != PLANNED ، ALPHA ، DEBUG ، یا DEPRECATED و یکی
        • اگر feature.lifecycle_stage != PLANNED ، ALPHA ، DEBUG ، یا DEPRECATED ،
          • weighted_feature.name == feature.name ; یا
        • اگر sparse_feature.lifecycle_stage != PLANNED ، ALPHA ، DEBUG ، یا DEPRECATED ،
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • فیلدهای طرحواره:
      • weighted_feature.feature
    • زمینه های آماری:
      • features.custom_stats
    • شرایط تشخیص:
      • features.custom_stats با "missing_value" به عنوان نام و
      • missing_value آمار سفارشی != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • فیلدهای طرحواره:
      • weighted_feature.weight_feature
    • زمینه های آماری:
      • features.custom_stats
    • شرایط تشخیص:
      • features.custom_stats با "missing_weight" به عنوان نام و
      • missing_weight آمار سفارشی != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • فیلدهای طرحواره:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • زمینه های آماری:
      • features.custom_stats
    • شرایط تشخیص:
      • features.custom_stats با "min_weighted_length_diff" یا "max_weight_length_diff" به عنوان نام، و
      • آمار سفارشی min_weight_length_diff یا max_weight_length_diff != 0
  • VALUE_NESTEDNESS_MISMATCH

    • فیلدهای طرحواره:
      • feature.value_count
      • feature.value_counts
    • زمینه های آماری:
      • features.common_stats.presence_and_valency_stats
    • شرایط تشخیص:
      • feature.value_count مشخص شده است، و presence_and_valency_stats مکرر از ویژگی وجود دارد (که نشان دهنده سطح تودرتو است که بیشتر از یک است) و
      • feature.value_counts مشخص شده است، و تعداد دفعاتی که presence_and_valency_stats ویژگی با تعداد دفعاتی که value_count در feature.value_counts تکرار می شود مطابقت ندارد.
  • DOMAIN_INVALID_FOR_TYPE

    • فیلدهای طرحواره:
      • feature.type
      • feature.domain_info
    • زمینه های آماری:
      • features.type
    • شرایط تشخیص:
      • اگر features.type == BYTES ،
        • feature.domain_info از نوع ناسازگار است. یا
      • if features.type != BYTES
        • feature.domain_info با feature.type مطابقت ندارد (مثلاً int_domain مشخص شده است، اما type ویژگی FLOAT است)
  • FEATURE_MISSING_NAME

    • فیلدهای طرحواره:
      • feature.name
    • شرایط تشخیص:
      • feature.name مشخص نشده است
  • FEATURE_MISSING_TYPE

    • فیلدهای طرحواره:
      • feature.type
    • شرایط تشخیص:
      • feature.type مشخص نشده است
  • INVALID_SCHEMA_SPECIFICATION

    • فیلدهای طرحواره:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • شرایط تشخیص:
      • feature.presence.min_fraction < 0.0 یا > 1.0 یا
      • feature.value_count.min < 0 یا > feature.value_count.max ، یا
      • یک bool، int، float، struct یا دامنه معنایی برای یک ویژگی و feature.distribution_constraints نیز برای آن ویژگی مشخص شده است، یا
      • feature.distribution_constraints برای یک ویژگی مشخص شده است، اما نه یک دامنه در سطح طرحواره و نه feature.string_domain برای آن ویژگی مشخص نشده است.
  • INVALID_DOMAIN_SPECIFICATION

    • فیلدهای طرحواره:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • شرایط تشخیص:
      • نوع feature.domain_info ناشناس مشخص شده است یا
      • feature.domain مشخص شده است، اما هیچ دامنه منطبقی در سطح طرح مشخص نشده است، یا
      • اگر feature.bool_domain ، feature.bool_domain.true_value ، و feature.bool_domain.false_value مشخص شده باشند،
        • feature.bool_domain.true_value == feature.bool_domain.false_value ، یا
      • اگر feature.string_domain مشخص شده باشد،
        • feature.string_domain.values ​​یا تکراری دارد
        • feature.string_domain از حداکثر اندازه بیشتر است
  • UNEXPECTED_DATA_TYPE

    • فیلدهای طرحواره:
      • feature.type
    • زمینه های آماری:
      • features.type
    • شرایط تشخیص:
      • features.type از نوع مشخص شده در feature.type نیست
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • فیلدهای طرحواره:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • زمینه های آماری:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • شرایط تشخیص:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • فیلدهای طرحواره:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • زمینه های آماری:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • شرایط تشخیص:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • فیلدهای طرحواره:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • زمینه های آماری:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • شرایط تشخیص:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • فیلدهای طرحواره:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • زمینه های آماری:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • شرایط تشخیص:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • فیلدهای طرحواره:
      • feature.natural_language_domain.coverage.min_coverage
    • زمینه های آماری:
      • features.custom_stats.nl_statistics.feature_coverage
    • شرایط تشخیص:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • فیلدهای طرحواره:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • زمینه های آماری:
      • features.custom_stats.nl_statistics.avg_token_length
    • شرایط تشخیص:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • EMBEDDING_SHAPE_INVALID

    • نوع ناهنجاری در TFDV شناسایی نشده است
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • فیلدهای طرحواره:
      • feature.image_domain.max_image_byte_size
    • زمینه های آماری:
      • features.bytes_stats.max_num_bytes_int
    • شرایط تشخیص:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • فیلدهای طرحواره:
      • feature.shape
    • زمینه های آماری:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • شرایط تشخیص:
      • feature.shape مشخص شده است و یا
        • این ویژگی ممکن است در برخی از سطوح لانه وجود نداشته باشد ( num_missing != 0).
        • این ویژگی ممکن است دارای تعداد متغیری از مقادیر ( min_num_values ​​!= max_num_values ) در برخی از سطوح آشیانه یا
        • شکل مشخص شده با آمار شمارش ارزش ویژگی سازگار نیست. برای مثال، شکل [16] با ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (برای یک ویژگی 3 تو در تو)) سازگار است.
  • STATS_NOT_AVAILBLE

    • ناهنجاری زمانی رخ می دهد که آمار مورد نیاز برای اعتبارسنجی محدودیت ها وجود نداشته باشد.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • فیلدهای طرحواره:
      • feature.lifecycle_stage
    • زمینه های آماری:
      • features.validation_derived_source
    • شرایط تشخیص:
      • feature.lifecycle_stage یکی از DERIVED یا DISABLED نیست و features.validation_derived_source وجود دارد که نشان می دهد این یک ویژگی مشتق شده است.
  • DERIVED_FEATURE_INVALID_SOURCE

    • فیلدهای طرحواره:
      • feature.validation_derived_source
    • زمینه های آماری:
      • features.validation_derived_source
    • شرایط تشخیص:
      • features.validation_derived_source برای یک ویژگی وجود دارد، اما feature.validation_derived_source مربوطه وجود ندارد.

* در صورتی که آمار وزنی برای این رشته موجود باشد، به جای آماره غیر وزنی از آن استفاده می شود.