TensorFlow 데이터 유효성 검사 이상 참조

TFDV는 스키마와 통계 프로토콜을 비교하여 이상을 확인합니다. 다음 차트에는 TFDV가 감지할 수 있는 이상 유형, 각 이상 유형을 감지하는 데 사용되는 스키마 및 통계 필드, 각 이상 유형이 감지되는 조건이 나열되어 있습니다.

  • BOOL_TYPE_BIG_INT

    • 스키마 필드:
      • feature.bool_domain
    • 통계 필드:
      • features.num_stats.max
      • features.type
    • 탐지 조건:
      • feature.bool_domain 이 지정되고
      • features.type == INT
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • TFDV에서 감지되지 않는 이상 유형
  • BOOL_TYPE_BYTES_NOT_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • BOOL_TYPE_FLOAT_NOT_INT

    • TFDV에서 감지되지 않는 이상 유형
  • BOOL_TYPE_FLOAT_NOT_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • BOOL_TYPE_INT_NOT_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • BOOL_TYPE_SMALL_INT

    • 스키마 필드:
      • feature.bool_domain
    • 통계 필드:
      • features.num_stats.min
      • features.type
    • 탐지 조건:
      • features.type == INT
      • feature.bool_domain 이 지정되고
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • TFDV에서 감지되지 않는 이상 유형
  • BOOL_TYPE_UNEXPECTED_STRING

    • 스키마 필드:
      • feature.bool_domain
    • 통계 필드:
      • features.string_stats.rank_histogram *
    • 탐지 조건:
      • features.type == STRING
      • feature.bool_domain 이 지정되고
      • rank_histogram *에서 하나 이상의 값이 feature.bool_domain.true_value 또는 feature.bool_domain.false_value 가 아닙니다.
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • 스키마 필드:
      • feature.bool_domain
    • 통계 필드:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • 탐지 조건:
      • features.type == FLOAT
      • feature.bool_domain 이 지정되고 다음 중 하나를 수행합니다.
        • ( features.num_stats.min != 0 또는 features.num_stats.min != 1) 또는
        • ( features.num_stats.max != 0 또는 features.num_stats.max != 1) 또는
        • features.num_stats.histograms.num_nan > 0 또는
        • ( features.num_stats.histograms.buckets.low_value != 0 또는 features.num_stats.histograms.buckets.high_value != 1) 및 features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • 스키마 필드:
      • feature.bool_domain
    • 통계 필드:
      • features.type
    • 탐지 조건:
      • features.type == INT 또는 FLOAT 인 경우,
        • feature.bool_domain 이 지정되고
        • feature.bool_domain.true_value 또는 feature.bool_domain.false_value 가 지정되거나
      • features.type == STRING 인 경우,
        • feature.bool_domain 이 지정되고
        • feature.bool_domain.true_valuefeature.bool_domain.false_value 지정되지 않았습니다.
  • ENUM_TYPE_BYTES_NOT_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • ENUM_TYPE_FLOAT_NOT_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • ENUM_TYPE_INT_NOT_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • ENUM_TYPE_INVALID_UTF8

    • 통계 필드:
      • features.string_stats.invalid_utf8_count
    • 탐지 조건:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • 스키마 필드:
      • string_domainfeature.domain ; 또는 feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • 통계 필드:
      • features.string_stats.rank_histogram *
    • 탐지 조건:
      • (도메인에 없는 rank_histogram 의 값 수 * 총 값 수) > (1 - feature.distribution_constraints.min_domain_mass ) 또는
      • feature.distribution_constraints.min_domain_mass == 1.0이고 히스토그램에는 도메인에 없는 값이 있습니다.
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • 스키마 필드:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • 통계 필드:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • 탐지 조건:
      • feature.value_count.max 가 지정된 경우
        • features.common_stats.max_num_values ​​> feature.value_count.max ; 또는
      • feature.value_counts 가 지정된 경우
        • feature.value_counts.value_count.max < 주어진 중첩 수준에서 features.common_stats.presence_and_valency_stats.max_num_values
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • 스키마 필드:
      • feature.presence.min_fraction
    • 통계 필드:
      • features.common_stats.num_non_missing *
      • num_examples *
    • 탐지 조건:
      • feature.presence.min_fraction 이 지정되고 ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction 또는
      • feature.presence.min_fraction == 1.0 및 common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • 스키마 필드:
      • feature.presence.min_count
    • 통계 필드:
      • features.common_stats.num_non_missing *
    • 탐지 조건:
      • feature.presence.min_count 가 지정되고 다음 중 하나
        • features.common_stats.num_non_missing * == 0 또는
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • 스키마 필드:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • 통계 필드:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • 탐지 조건:
      • feature.value_count.min 이 지정된 경우
        • features.common_stats.min_num_values ​​< feature.value_count.min ; 또는
      • feature.value_counts 가 지정된 경우
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< 주어진 중첩 수준에서 feature.value_counts.value_count.min
  • FEATURE_TYPE_NOT_PRESENT

    • 스키마 필드:
      • feature.in_environment 또는 feature.not_in_environment 또는 schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count 또는 feature.presence.min_fraction
    • 통계 필드:
      • features.common_stats.num_non_missing *
    • 탐지 조건:
      • feature.lifecycle_stage [ PLANNED , ALPHA , DEBUG , DEPRECATED ]에 없고
      • common_stats.num_non_missing * == 0 및
      • ( feature.presence.min_count > 0 또는 feature.presence.min_fraction > 0) 및
        • feature.in_environment == 현재 환경 또는
        • feature.not_in_environment != 현재 환경 또는
        • schema.default_environment != 현재 환경
  • FEATURE_TYPE_NO_VALUES

    • TFDV에서 감지되지 않는 이상 유형
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • TFDV에서 감지되지 않는 이상 유형
  • FEATURE_TYPE_HIGH_UNIQUE

    • 스키마 필드:
      • feature.unique_constraints.max
    • 통계 필드:
      • features.string_stats.unique
    • 탐지 조건:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • 스키마 필드:
      • feature.unique_constraints.min
    • 통계 필드:
      • features.string_stats.unique
    • 탐지 조건:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • 스키마 필드:
      • feature.unique_constraints
    • 통계 필드:
      • features.string_stats.unique
    • 탐지 조건:
      • feature.unique_constraints 가 지정되었지만 features.string_stats.unique 없습니다(특징이 문자열 또는 범주형이 아닌 경우).
  • FLOAT_TYPE_BIG_FLOAT

    • 스키마 필드:
      • feature.float_domain.max
    • 통계 필드:
      • features.type
      • features.num_stats.max 또는 features.string_stats.rank_histogram
    • 탐지 조건:
      • features.type == FLOAT 인 경우,
        • features.num_stats.max > feature.float_domain.max ; 또는
      • features.type == BYTES 또는 STRING 인 경우,
        • features.string_stats.rank_histogram 의 최대값(float으로 변환할 때) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • TFDV에서 감지되지 않는 이상 유형
  • FLOAT_TYPE_SMALL_FLOAT

    • 스키마 필드:
      • feature.float_domain.min
    • 통계 필드:
      • features.type
      • features.num_stats.min 또는 features.string_stats.rank_histogram
    • 탐지 조건:
      • features.type == FLOAT 인 경우,
        • features.num_stats.min < feature.float_domain.min ; 또는
      • features.type == BYTES 또는 STRING 인 경우,
        • features.string_stats.rank_histogram 의 최소값(float으로 변환할 때) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • 스키마 필드:
      • feature.float_domain
    • 통계 필드:
      • features.type
      • features.string_stats.rank_histogram
    • 탐지 조건:
      • features.type == BYTES 또는 STRING
      • features.string_stats.rank_histogram float로 변환할 수 없는 값이 하나 이상 있습니다.
  • FLOAT_TYPE_NON_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • TFDV에서 감지되지 않는 이상 유형
  • FLOAT_TYPE_HAS_NAN

    • 스키마 필드:
      • feature.float_domain.disallow_nan
    • 통계 필드:
      • features.type
      • features.num_stats.histograms.num_nan
    • 탐지 조건:
      • float_domain.disallow_nan 은 참이고
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • 스키마 필드:
      • feature.float_domain.disallow_inf
    • 통계 필드:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • 탐지 조건:
      • features.type == FLOAT
      • float_domain.disallow_inf 는 true이고 다음 중 하나입니다.
        • features.num_stats.min == inf/-inf 또는
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • 스키마 필드:
      • feature.int_domain.max
    • 통계 필드:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • 탐지 조건:
      • features.type == INT 인 경우,
        • features.num_stats.max > feature.int_domain.max ; 또는
      • features.type == BYTES 또는 STRING 인 경우,
        • features.string_stats.rank_histogram 의 최대값(int로 변환할 때) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • TFDV에서 감지되지 않는 이상 유형
  • INT_TYPE_NOT_INT_STRING

    • 스키마 필드:
      • feature.int_domain
    • 통계 필드:
      • features.type
      • features.string_stats.rank_histogram
    • 탐지 조건:
      • features.type == BYTES 또는 STRING
      • features.string_stats.rank_histogram int로 변환할 수 없는 값이 하나 이상 있습니다.
  • INT_TYPE_NOT_STRING

    • TFDV에서 감지되지 않는 이상 유형
  • INT_TYPE_SMALL_INT

    • 스키마 필드:
      • feature.int_domain.min
    • 통계 필드:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • 탐지 조건:
      • features.type == INT 인 경우,
        • features.num_stats.min < feature.int_domain.min ; 또는
      • features.type == BYTES 또는 STRING 인 경우,
        • features.string_stats.rank_histogram 의 최소값(int로 변환 시) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • TFDV에서 감지되지 않는 이상 유형
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • TFDV에서 감지되지 않는 이상 유형
  • LOW_SUPPORTED_IMAGE_FRACTION

    • 스키마 필드:
      • feature.image_domain.minimum_supported_image_fraction
    • 통계 필드:
      • 이름이 image_format_histogram 인 custom_stats에 대한 features.custom_stats.rank_histogram image_format_histogram이 생성되고 이 검증이 수행되려면 시맨틱 도메인 통계가 활성화되어야 합니다. 시맨틱 도메인 통계는 기본적으로 생성되지 않습니다.
    • 탐지 조건:
      • 모든 이미지 유형에 대한 Tensorflow 이미지 유형이 지원되는 값의 비율은 feature.image_domain.minimum_supported_image_fraction 미만입니다.
  • SCHEMA_MISSING_COLUMN

    • 스키마 필드:
      • feature.in_environment 또는 feature.not_in_environment 또는 schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count 또는 feature.presence.min_fraction
    • 탐지 조건:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG 또는 DEPRECATED
      • feature.presence.min_count > 0 또는 feature.presence.min_fraction > 0 및
      • feature.in_environment == 현재 환경 또는 feature.not_in_environment != 현재 환경 또는 schema.default_environment != 현재 환경 및
      • 지정된 이름/경로를 가진 기능이 통계 proto에 없습니다.
  • SCHEMA_NEW_COLUMN

    • 탐지 조건:
      • 통계 proto에는 기능이 있지만 스키마 proto에는 이름/경로가 있는 기능이 없습니다.
  • SCHEMA_TRAINING_SERVING_SKEW

    • TFDV에서 감지되지 않는 이상 유형
  • STRING_TYPE_NOW_FLOAT

    • TFDV에서 감지되지 않는 이상 유형
  • STRING_TYPE_NOW_INT

    • TFDV에서 감지되지 않는 이상 유형
  • COMPARATOR_CONTROL_DATA_MISSING

    • 스키마 필드:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • 탐지 조건:
      • 제어 통계 proto(예: 왜곡에 대한 제공 통계 또는 드리프트에 대한 이전 통계)를 사용할 수 있지만 지정된 기능을 포함하지 않습니다.
  • COMPARATOR_TREATMENT_DATA_MISSING

    • TFDV에서 감지되지 않는 이상 유형
  • COMPARATOR_L_INFTY_HIGH

    • 스키마 필드:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • 통계 필드:
      • features.string_stats.rank_histogram *
    • 탐지 조건:
      • 제어 통계(예: 편향에 대한 제공 통계 또는 드리프트에 대한 이전 통계)의 features.string_stats.rank_histogram *에서 정규화된 카운트와 처리 통계(즉 왜곡 또는 드리프트에 대한 현재 통계) > feature.skew_comparator.infinity_norm.threshold 또는 feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • 스키마 필드:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • 통계 필드:
      • features.string_stats.rank_histogram
    • 탐지 조건:
      • 제어 통계(예: 편향에 대한 서빙 통계 또는 드리프트에 대한 이전 통계) 및 처리 통계(즉, 편향에 대한 교육 통계 또는 드리프트에 대한 현재 통계)의 features.string_stats.rank_histogram 값 카운트의 정규화된 절대 카운트 차이가 초과되었습니다. feature.skew_comparator.normalized_abs_difference.threshold 또는 feature.drift_comparator.normalized_abs_difference.threshold. 카운트 차이는 두 조건의 총 카운트로 정규화됩니다.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • 스키마 필드:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • 통계 필드:
      • STANDARD 유형의 features.num_stats.histograms
      • features.string_stats.rank_histogram *
    • 탐지 조건:
      • 제어 통계(예: 왜곡에 대한 서빙 통계 또는 드리프트에 대한 이전 통계)와 처리 통계(예: 왜곡에 대한 교육 통계 또는 드리프트에 대한 현재 통계) > feature.skew_comparator.jensen_shannon_divergence.threshold 또는 feature.drift_comparator.jensen_shannon_divergence.threshold . 대략적인 Jensen-Shannon 발산은 features.num_stats.histograms 표준 히스토그램과 features.string_stats.rank_histogram *의 정규화된 샘플 수를 기반으로 계산됩니다.
  • NO_DATA_IN_SPAN

    • TFDV에서 감지되지 않는 이상 유형
  • SPARSE_FEATURE_MISSING_VALUE

    • 스키마 필드:
      • sparse_feature.value_feature
    • 통계 필드:
      • features.custom_stats
    • 탐지 조건:
      • 이름이 "missing_value"인 features.custom_stats
      • missing_value 맞춤 통계 != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • 스키마 필드:
      • sparse_feature.index_feature
    • 통계 필드:
      • features.custom_stats
    • 탐지 조건:
      • 이름이 "missing_index"인 features.custom_stats
      • missing_index 커스텀 통계는 모든 값을 포함합니다!= 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • 스키마 필드:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • 통계 필드:
      • features.custom_stats
    • 탐지 조건:
      • 이름이 "min_length_diff" 또는 "max_length_diff"인 features.custom_stats
      • min_length_diff 또는 max_length_diff 사용자 지정 통계에는 모든 값이 포함됩니다!= 0
  • SPARSE_FEATURE_NAME_COLLISION

    • 스키마 필드:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • 탐지 조건:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG 또는 DEPRECATED , 그리고
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG 또는 DEPRECATED , 그리고
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • 스키마 필드:
      • feature.domain_info
    • 통계 필드:
      • features.custom_stats
    • 탐지 조건:
      • 이름이 "domain_info"인 features.custom_stats
      • feature.domain_info 스키마에 아직 설정되지 않았으며
      • 기능에 대한 단일 domain_info 맞춤 통계가 있습니다.
  • COMPARATOR_LOW_NUM_EXAMPLES

    • 스키마 필드:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • 통계 필드:
      • num_examples *
    • 탐지 조건:
      • num_examples * > 0 및
      • 이전 통계 프로토콜을 사용할 수 있으며
      • num_examples * / 이전 통계 num_examples * < 비교기 min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • 스키마 필드:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • 통계 필드:
      • num_examples *
    • 탐지 조건:
      • num_examples * > 0 및
      • 이전 통계 프로토콜을 사용할 수 있으며
      • num_examples * / 이전 통계 num_examples * > 비교기 max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • 스키마 필드:
      • schema.dataset_constraints.min_examples_count
    • 통계 필드:
      • num_examples *
    • 탐지 조건:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • 스키마 필드:
      • schema.dataset_constraints.max_examples_count
    • 통계 필드:
      • num_examples *
    • 탐지 조건:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • 스키마 필드:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • 탐지 조건:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG 또는 DEPRECATED 및 둘 중 하나
        • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG 또는 DEPRECATED 인 경우,
          • weighted_feature.name == feature.name ; 또는
        • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG 또는 DEPRECATED 이면,
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • 스키마 필드:
      • weighted_feature.feature
    • 통계 필드:
      • features.custom_stats
    • 탐지 조건:
      • 이름이 "missing_value"인 features.custom_stats
      • missing_value 맞춤 통계 != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • 스키마 필드:
      • weighted_feature.weight_feature
    • 통계 필드:
      • features.custom_stats
    • 탐지 조건:
      • 이름이 "missing_weight"인 features.custom_stats
      • missing_weight 맞춤 통계 != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • 스키마 필드:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • 통계 필드:
      • features.custom_stats
    • 탐지 조건:
      • "min_weighted_length_diff" 또는 "max_weight_length_diff"를 이름으로 가지는 features.custom_stats
      • min_weight_length_diff 또는 max_weight_length_diff 맞춤 통계 != 0
  • VALUE_NESTEDNESS_MISMATCH

    • 스키마 필드:
      • feature.value_count
      • feature.value_counts
    • 통계 필드:
      • features.common_stats.presence_and_valency_stats
    • 탐지 조건:
      • feature.value_count 가 지정되고 기능의 반복된 presence_and_valency_stats (1보다 큰 중첩 수준을 나타냄)가 있고
      • feature.value_counts 지정되었으며 feature의 presence_and_valency_stats 반복되는 횟수가 feature.value_counts 내에서 value_count 반복되는 횟수와 일치하지 않습니다.
  • DOMAIN_INVALID_FOR_TYPE

    • 스키마 필드:
      • feature.type
      • feature.domain_info
    • 통계 필드:
      • features.type
    • 탐지 조건:
      • features.type == BYTES 인 경우,
        • feature.domain_info 는 호환되지 않는 유형입니다. 또는
      • if features.type != BYTES ,
        • feature.domain_info feature.type 일치하지 않습니다(예: int_domain 이 지정되었지만 기능 typeFLOAT 임).
  • FEATURE_MISSING_NAME

    • 스키마 필드:
      • feature.name
    • 탐지 조건:
      • feature.name 지정되지 않았습니다.
  • FEATURE_MISSING_TYPE

    • 스키마 필드:
      • feature.type
    • 탐지 조건:
      • feature.type 지정되지 않았습니다.
  • INVALID_SCHEMA_SPECIFICATION

    • 스키마 필드:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • 탐지 조건:
      • feature.presence.min_fraction < 0.0 또는 > 1.0, 또는
      • feature.value_count.min < 0 또는 > feature.value_count.max 또는
      • 기능에 대해 bool, int, float, struct 또는 의미 도메인이 지정되고 해당 기능에 대해 feature.distribution_constraints 도 지정되거나
      • 기능에 대해 feature.distribution_constraints 지정되었지만 해당 기능에 대해 스키마 수준 도메인이나 feature.string_domain 이 모두 지정되지 않았습니다.
  • INVALID_DOMAIN_SPECIFICATION

    • 스키마 필드:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • 탐지 조건:
      • 알 수 없는 feature.domain_info 유형이 지정되었거나
      • feature.domain 지정되었지만 스키마 수준에서 일치하는 도메인이 지정되지 않았거나
      • feature.bool_domain , feature.bool_domain.true_valuefeature.bool_domain.false_value 지정된 경우,
        • feature.bool_domain.true_value == feature.bool_domain.false_value 또는
      • feature.string_domain 지정된 경우,
        • 중복된 feature.string_domain.values 가 있거나
        • feature.string_domain 최대 크기를 초과합니다.
  • UNEXPECTED_DATA_TYPE

    • 스키마 필드:
      • feature.type
    • 통계 필드:
      • features.type
    • 탐지 조건:
      • features.type feature.type 에 지정된 유형이 아닙니다.
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • 스키마 필드:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • 통계 필드:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • 탐지 조건:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • 스키마 필드:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • 통계 필드:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • 탐지 조건:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • 스키마 필드:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • 통계 필드:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • 탐지 조건:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • 스키마 필드:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • 통계 필드:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • 탐지 조건:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • 스키마 필드:
      • feature.natural_language_domain.coverage.min_coverage
    • 통계 필드:
      • features.custom_stats.nl_statistics.feature_coverage
    • 탐지 조건:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • 스키마 필드:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • 통계 필드:
      • features.custom_stats.nl_statistics.avg_token_length
    • 탐지 조건:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • TFDV에서 감지되지 않는 이상 유형
  • EMBEDDING_SHAPE_INVALID

    • TFDV에서 감지되지 않는 이상 유형
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • 스키마 필드:
      • feature.image_domain.max_image_byte_size
    • 통계 필드:
      • features.bytes_stats.max_num_bytes_int
    • 탐지 조건:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • 스키마 필드:
      • feature.shape
    • 통계 필드:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • 탐지 조건:
      • feature.shape 가 지정되고
        • 일부 중첩 수준에서 기능이 누락되었을 수 있습니다( num_missing != 0).
        • 기능은 일부 중첩 수준에서 가변 개수의 값( min_num_values ​​!= max_num_values ​​)을 가질 수 있습니다.
        • 지정된 모양이 기능의 값 개수 통계와 호환되지 않습니다. 예를 들어 모양 [16] 은 ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (3-중첩 기능의 경우))와 호환됩니다.
  • STATS_NOT_AVAILBLE

    • 제약 조건의 유효성을 검사하는 데 필요한 통계가 없을 때 이상 현상이 발생합니다.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • 스키마 필드:
      • feature.lifecycle_stage
    • 통계 필드:
      • features.validation_derived_source
    • 탐지 조건:
      • feature.lifecycle_stage DERIVED 또는 DISABLED 중 하나가 아니며 features.validation_derived_source 있어 이것이 파생된 기능임을 나타냅니다.
  • DERIVED_FEATURE_INVALID_SOURCE

    • 스키마 필드:
      • feature.validation_derived_source
    • 통계 필드:
      • features.validation_derived_source
    • 탐지 조건:
      • features.validation_derived_source 는 기능에 대해 있지만 해당 feature.validation_derived_source 는 없습니다.

* 이 필드에 가중 통계가 있는 경우 비가중 통계 대신 사용됩니다.