TFDV は、スキーマと統計プロトを比較することによって異常をチェックします。次の表は、TFDV が検出できる異常タイプ、各異常タイプの検出に使用されるスキーマおよび統計フィールド、および各異常タイプが検出される条件をリストしています。
BOOL_TYPE_BIG_INT
- スキーマフィールド:
-
feature.bool_domain
-
- 統計フィールド:
-
features.num_stats.max
-
features.type
-
- 検出条件:
-
feature.bool_domain
が指定されており、 -
features.type
==INT
および features.num_stats.max
> 1
-
- スキーマフィールド:
BOOL_TYPE_BYTES_NOT_INT
- TFDV で異常タイプが検出されない
BOOL_TYPE_BYTES_NOT_STRING
- TFDV で異常タイプが検出されない
BOOL_TYPE_FLOAT_NOT_INT
- TFDV で異常タイプが検出されない
BOOL_TYPE_FLOAT_NOT_STRING
- TFDV で異常タイプが検出されない
BOOL_TYPE_INT_NOT_STRING
- TFDV で異常タイプが検出されない
BOOL_TYPE_SMALL_INT
- スキーマフィールド:
-
feature.bool_domain
-
- 統計フィールド:
-
features.num_stats.min
-
features.type
-
- 検出条件:
-
features.type
==INT
および feature.bool_domain
が指定されており、-
features.num_stats.min
< 0
-
- スキーマフィールド:
BOOL_TYPE_STRING_NOT_INT
- TFDV で異常タイプが検出されない
BOOL_TYPE_UNEXPECTED_STRING
- スキーマフィールド:
-
feature.bool_domain
-
- 統計フィールド:
-
features.string_stats.rank_histogram
*
-
- 検出条件:
-
features.type
==STRING
および feature.bool_domain
が指定されており、-
rank_histogram
の少なくとも 1 つの値 * がfeature.bool_domain.true_value
またはfeature.bool_domain.false_value
ではありません
-
- スキーマフィールド:
BOOL_TYPE_UNEXPECTED_FLOAT
- スキーマフィールド:
-
feature.bool_domain
-
- 統計フィールド:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- 検出条件:
-
features.type
==FLOAT
および feature.bool_domain
が指定されており、次のいずれかが指定されています- (
features.num_stats.min
!= 0 またはfeatures.num_stats.min
!= 1) または - (
features.num_stats.max
!= 0 またはfeatures.num_stats.max
!= 1) または features.num_stats.histograms.num_nan
> 0 または- (
features.num_stats.histograms.buckets.low_value
!= 0 またはfeatures.num_stats.histograms.buckets.high_value
!= 1) およびfeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- スキーマフィールド:
BOOL_TYPE_INVALID_CONFIG
- スキーマフィールド:
-
feature.bool_domain
-
- 統計フィールド:
-
features.type
-
- 検出条件:
-
features.type
==INT
またはFLOAT
の場合、-
feature.bool_domain
が指定されており、 -
feature.bool_domain.true_value
またはfeature.bool_domain.false_value
が指定されている、または
-
features.type
==STRING
の場合、-
feature.bool_domain
が指定されており、 -
feature.bool_domain.true_value
およびfeature.bool_domain.false_value
が指定されていません
-
-
- スキーマフィールド:
ENUM_TYPE_BYTES_NOT_STRING
- TFDV で異常タイプが検出されない
ENUM_TYPE_FLOAT_NOT_STRING
- TFDV で異常タイプが検出されない
ENUM_TYPE_INT_NOT_STRING
- TFDV で異常タイプが検出されない
ENUM_TYPE_INVALID_UTF8
- 統計フィールド:
-
features.string_stats.invalid_utf8_count
-
- 検出条件:
-
invalid_utf8_count
> 0
-
- 統計フィールド:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- スキーマフィールド:
-
string_domain
とfeature.domain
;またはfeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- 統計フィールド:
-
features.string_stats.rank_histogram
*
-
- 検出条件:
- (
rank_histogram
内のドメインにない値の数 * / 値の合計数) > (1 -feature.distribution_constraints.min_domain_mass
) または feature.distribution_constraints.min_domain_mass
== 1.0 で、ヒストグラムにドメインにない値が含まれています
- (
- スキーマフィールド:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- スキーマフィールド:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- 統計フィールド:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- 検出条件:
-
feature.value_count.max
が指定されている場合features.common_stats.max_num_values
>feature.value_count.max
;また
feature.value_counts
が指定されている場合- 特定のネストレベルでの
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
- 特定のネストレベルでの
-
- スキーマフィールド:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- スキーマフィールド:
-
feature.presence.min_fraction
-
- 統計フィールド:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- 検出条件:
-
feature.presence.min_fraction
が指定されており、 (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
または feature.presence.min_fraction
== 1.0 およびcommon_stats.num_missing
!= 0
-
- スキーマフィールド:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- スキーマフィールド:
-
feature.presence.min_count
-
- 統計フィールド:
-
features.common_stats.num_non_missing
*
-
- 検出条件:
-
feature.presence.min_count
が指定されており、次のいずれかが指定されていますfeatures.common_stats.num_non_missing
* == 0 またはfeatures.common_stats.num_non_missing
* <feature.presence.min_count
-
- スキーマフィールド:
FEATURE_TYPE_LOW_NUMBER_VALUES
- スキーマフィールド:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- 統計フィールド:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- 検出条件:
-
feature.value_count.min
を指定した場合features.common_stats.min_num_values
<feature.value_count.min
;また
feature.value_counts
が指定されている場合- 特定のネストレベルでの
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
- 特定のネストレベルでの
-
- スキーマフィールド:
FEATURE_TYPE_NOT_PRESENT
- スキーマフィールド:
-
feature.in_environment
またはfeature.not_in_environment
またはschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
またはfeature.presence.min_fraction
-
- 統計フィールド:
-
features.common_stats.num_non_missing
*
-
- 検出条件:
-
feature.lifecycle_stage
[PLANNED
、ALPHA
、DEBUG
、DEPRECATED
] に含まれていない、および common_stats.num_non_missing
* == 0 および- (
feature.presence.min_count
> 0 またはfeature.presence.min_fraction
> 0) および次のいずれかfeature.in_environment
== 現在の環境 またはfeature.not_in_environment
!= 現在の環境 またはschema.default_environment
!= 現在の環境
-
- スキーマフィールド:
FEATURE_TYPE_NO_VALUES
- TFDV で異常タイプが検出されない
FEATURE_TYPE_UNEXPECTED_REPEATED
- TFDV で異常タイプが検出されない
FEATURE_TYPE_HIGH_UNIQUE
- スキーマフィールド:
-
feature.unique_constraints.max
-
- 統計フィールド:
-
features.string_stats.unique
-
- 検出条件:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- スキーマフィールド:
FEATURE_TYPE_LOW_UNIQUE
- スキーマフィールド:
-
feature.unique_constraints.min
-
- 統計フィールド:
-
features.string_stats.unique
-
- 検出条件:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- スキーマフィールド:
FEATURE_TYPE_NO_UNIQUE
- スキーマフィールド:
-
feature.unique_constraints
-
- 統計フィールド:
-
features.string_stats.unique
-
- 検出条件:
-
feature.unique_constraints
指定されていますが、features.string_stats.unique
が存在しません (特徴が文字列またはカテゴリではない場合と同様)
-
- スキーマフィールド:
FLOAT_TYPE_BIG_FLOAT
- スキーマフィールド:
-
feature.float_domain.max
-
- 統計フィールド:
-
features.type
-
features.num_stats.max
またはfeatures.string_stats.rank_histogram
-
- 検出条件:
-
features.type
==FLOAT
の場合、-
features.num_stats.max
>feature.float_domain.max
;また
-
features.type
==BYTES
またはSTRING
の場合、-
features.string_stats.rank_histogram
の最大値 (float に変換した場合) >feature.float_domain.max
-
-
- スキーマフィールド:
FLOAT_TYPE_NOT_FLOAT
- TFDV で異常タイプが検出されない
FLOAT_TYPE_SMALL_FLOAT
- スキーマフィールド:
-
feature.float_domain.min
-
- 統計フィールド:
-
features.type
-
features.num_stats.min
またはfeatures.string_stats.rank_histogram
-
- 検出条件:
-
features.type
==FLOAT
の場合、-
features.num_stats.min
<feature.float_domain.min
;また
-
features.type
==BYTES
またはSTRING
の場合、-
features.string_stats.rank_histogram
の最小値 (float に変換した場合) <feature.float_domain.min
-
-
- スキーマフィールド:
FLOAT_TYPE_STRING_NOT_FLOAT
- スキーマフィールド:
-
feature.float_domain
-
- 統計フィールド:
-
features.type
-
features.string_stats.rank_histogram
-
- 検出条件:
-
features.type
==BYTES
またはSTRING
および features.string_stats.rank_histogram
は、float に変換できない値が少なくとも 1 つあります
-
- スキーマフィールド:
FLOAT_TYPE_NON_STRING
- TFDV で異常タイプが検出されない
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- TFDV で異常タイプが検出されない
FLOAT_TYPE_HAS_NAN
- スキーマフィールド:
-
feature.float_domain.disallow_nan
-
- 統計フィールド:
-
features.type
-
features.num_stats.histograms.num_nan
-
- 検出条件:
-
float_domain.disallow_nan
が true であり、 -
features.num_stats.histograms.num_nan
> 0
-
- スキーマフィールド:
FLOAT_TYPE_HAS_INF
- スキーマフィールド:
-
feature.float_domain.disallow_inf
-
- 統計フィールド:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- 検出条件:
-
features.type
==FLOAT
-
float_domain.disallow_inf
が true であり、次のいずれかであるfeatures.num_stats.min
==inf/-inf
またはfeatures.num_stats.max
==inf/-inf
-
- スキーマフィールド:
INT_TYPE_BIG_INT
- スキーマフィールド:
-
feature.int_domain.max
-
- 統計フィールド:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- 検出条件:
-
features.type
==INT
の場合、-
features.num_stats.max
>feature.int_domain.max
;また
-
features.type
==BYTES
またはSTRING
の場合、-
features.string_stats.rank_histogram
の最大値 (int に変換した場合) >feature.int_domain.max
-
-
- スキーマフィールド:
INT_TYPE_INT_EXPECTED
- TFDV で異常タイプが検出されない
INT_TYPE_NOT_INT_STRING
- スキーマフィールド:
-
feature.int_domain
-
- 統計フィールド:
-
features.type
-
features.string_stats.rank_histogram
-
- 検出条件:
-
features.type
==BYTES
またはSTRING
および features.string_stats.rank_histogram
には、int に変換できない値が少なくとも 1 つあります
-
- スキーマフィールド:
INT_TYPE_NOT_STRING
- TFDV で異常タイプが検出されない
INT_TYPE_SMALL_INT
- スキーマフィールド:
-
feature.int_domain.min
-
- 統計フィールド:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- 検出条件:
-
features.type
==INT
の場合、-
features.num_stats.min
<feature.int_domain.min
;また
-
features.type
==BYTES
またはSTRING
の場合、-
features.string_stats.rank_histogram
の最小値 (int に変換した場合) <feature.int_domain.min
-
-
- スキーマフィールド:
INT_TYPE_STRING_EXPECTED
- TFDV で異常タイプが検出されない
INT_TYPE_UNKNOWN_TYPE_NUMBER
- TFDV で異常タイプが検出されない
LOW_SUPPORTED_IMAGE_FRACTION
- スキーマフィールド:
-
feature.image_domain.minimum_supported_image_fraction
-
- 統計フィールド:
-
image_format_histogram
という名前のcustom_statsのfeatures.custom_stats.rank_histogram
。 image_format_histogram を生成し、この検証を実行するには、セマンティック ドメイン統計を有効にする必要があることに注意してください。セマンティック ドメイン統計はデフォルトでは生成されません。
-
- 検出条件:
- すべてのイメージ タイプに対するサポートされている Tensorflow イメージ タイプの値の割合は、
feature.image_domain.minimum_supported_image_fraction
未満です。
- すべてのイメージ タイプに対するサポートされている Tensorflow イメージ タイプの値の割合は、
- スキーマフィールド:
SCHEMA_MISSING_COLUMN
- スキーマフィールド:
-
feature.in_environment
またはfeature.not_in_environment
またはschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
またはfeature.presence.min_fraction
-
- 検出条件:
-
feature.lifecycle_stage
!=PLANNED
、ALPHA
、DEBUG
、またはDEPRECATED
および feature.presence.min_count
> 0 またはfeature.presence.min_fraction
> 0 およびfeature.in_environment
== 現在の環境またはfeature.not_in_environment
!= 現在の環境またはschema.default_environment
!= 現在の環境および- 指定された名前/パスを持つ機能が統計プロトコルに見つかりません
-
- スキーマフィールド:
SCHEMA_NEW_COLUMN
- 検出条件:
- 統計プロトコルには機能がありますが、スキーマ プロトにはその名前/パスを持つ機能がありません
- 検出条件:
SCHEMA_TRAINING_SERVING_SKEW
- TFDV で異常タイプが検出されない
STRING_TYPE_NOW_FLOAT
- TFDV で異常タイプが検出されない
STRING_TYPE_NOW_INT
- TFDV で異常タイプが検出されない
COMPARATOR_CONTROL_DATA_MISSING
- スキーマフィールド:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- 検出条件:
- 制御統計プロト (つまり、スキューのサービング統計またはドリフトの以前の統計) は利用可能ですが、指定された機能は含まれていません
- スキーマフィールド:
COMPARATOR_TREATMENT_DATA_MISSING
- TFDV で異常タイプが検出されない
COMPARATOR_L_INFTY_HIGH
- スキーマフィールド:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- 統計フィールド:
-
features.string_stats.rank_histogram
*
-
- 検出条件:
- 制御統計 (つまり、スキューの場合はサービング統計、ドリフトの場合は以前の統計) の
features.string_stats.rank_histogram
* からの正規化されたカウントと治療統計 (つまり、トレーニング統計スキューまたはドリフトの現在の統計) >feature.skew_comparator.infinity_norm.threshold
またはfeature.drift_comparator.infinity_norm.threshold
- 制御統計 (つまり、スキューの場合はサービング統計、ドリフトの場合は以前の統計) の
- スキーマフィールド:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- スキーマフィールド:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- 統計フィールド:
-
features.string_stats.rank_histogram
-
- 検出条件:
- 制御統計 (つまり、スキューの場合はサービング統計、ドリフトの場合は以前の統計) および処理統計 (つまり、スキューの場合はトレーニング統計、またはドリフトの場合は現在の統計) の
features.string_stats.rank_histogram
からの値カウントの正規化された絶対カウント差が超過しました。 feature.skew_comparator.normalized_abs_difference.threshold または feature.drift_comparator.normalized_abs_difference.threshold。カウントの差は、両方の条件にわたる合計カウントによって正規化されます。
- 制御統計 (つまり、スキューの場合はサービング統計、ドリフトの場合は以前の統計) および処理統計 (つまり、スキューの場合はトレーニング統計、またはドリフトの場合は現在の統計) の
- スキーマフィールド:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- スキーマフィールド:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- 統計フィールド:
-
STANDARD
タイプのfeatures.num_stats.histograms
-
features.string_stats.rank_histogram
*
-
- 検出条件:
- 制御統計 (つまり、スキューのサービング統計またはドリフトの以前の統計) と治療統計 (つまり、スキューのトレーニング統計またはドリフトの現在の統計) の間で計算されたおおよそのジェンセン・シャノン発散 >
feature.skew_comparator.jensen_shannon_divergence.threshold
またはfeature.drift_comparator.jensen_shannon_divergence.threshold
。おおよその Jensen-Shannon 発散は、features.num_stats.histograms
標準ヒストグラムとfeatures.string_stats.rank_histogram
* の両方の正規化されたサンプル数に基づいて計算されます。
- 制御統計 (つまり、スキューのサービング統計またはドリフトの以前の統計) と治療統計 (つまり、スキューのトレーニング統計またはドリフトの現在の統計) の間で計算されたおおよそのジェンセン・シャノン発散 >
- スキーマフィールド:
NO_DATA_IN_SPAN
- TFDV で異常タイプが検出されない
SPARSE_FEATURE_MISSING_VALUE
- スキーマフィールド:
-
sparse_feature.value_feature
-
- 統計フィールド:
-
features.custom_stats
-
- 検出条件:
-
features.custom_stats
の名前が「missing_value」で、 -
missing_value
カスタム統計 != 0
-
- スキーマフィールド:
SPARSE_FEATURE_MISSING_INDEX
- スキーマフィールド:
-
sparse_feature.index_feature
-
- 統計フィールド:
-
features.custom_stats
-
- 検出条件:
-
features.custom_stats
の名前は「missing_index」で、 -
missing_index
カスタム統計には任意の値が含まれています != 0
-
- スキーマフィールド:
SPARSE_FEATURE_LENGTH_MISMATCH
- スキーマフィールド:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- 統計フィールド:
-
features.custom_stats
-
- 検出条件:
-
features.custom_stats
の名前は「min_length_diff」または「max_length_diff」 -
min_length_diff
またはmax_length_diff
カスタム統計には任意の値が含まれます != 0
-
- スキーマフィールド:
SPARSE_FEATURE_NAME_COLLISION
- スキーマフィールド:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- 検出条件:
-
sparse_feature.lifecycle_stage
!=PLANNED
、ALPHA
、DEBUG
、またはDEPRECATED
、および feature.lifecycle_stage
!=PLANNED
、ALPHA
、DEBUG
、またはDEPRECATED
、およびsparse_feature.name
==feature.name
-
- スキーマフィールド:
SEMANTIC_DOMAIN_UPDATE
- スキーマフィールド:
-
feature.domain_info
-
- 統計フィールド:
-
features.custom_stats
-
- 検出条件:
-
features.custom_stats
の名前は「domain_info」、 -
feature.domain_info
がまだスキーマに設定されておらず、 - この機能には単一の
domain_info
カスタム統計があります
-
- スキーマフィールド:
COMPARATOR_LOW_NUM_EXAMPLES
- スキーマフィールド:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- 統計フィールド:
-
num_examples
*
-
- 検出条件:
-
num_examples
* > 0 および - 以前の統計プロトが利用可能であり、
-
num_examples
* / 以前の統計num_examples
* < コンパレータmin_fraction_threshold
-
- スキーマフィールド:
COMPARATOR_HIGH_NUM_EXAMPLES
- スキーマフィールド:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- 統計フィールド:
-
num_examples
*
-
- 検出条件:
-
num_examples
* > 0 および - 以前の統計プロトが利用可能であり、
-
num_examples
* / 以前の統計num_examples
* > コンパレータmax_fraction_threshold
-
- スキーマフィールド:
DATASET_LOW_NUM_EXAMPLES
- スキーマフィールド:
-
schema.dataset_constraints.min_examples_count
-
- 統計フィールド:
-
num_examples
*
-
- 検出条件:
-
num_examples
* <dataset_constraints.min_examples_count
-
- スキーマフィールド:
DATASET_HIGH_NUM_EXAMPLES
- スキーマフィールド:
-
schema.dataset_constraints.max_examples_count
-
- 統計フィールド:
-
num_examples
*
-
- 検出条件:
-
num_examples
* >dataset_constraints.max_examples_count
-
- スキーマフィールド:
WEIGHTED_FEATURE_NAME_COLLISION
- スキーマフィールド:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- 検出条件:
-
weighted_feature.lifecycle_stage
!=PLANNED
、ALPHA
、DEBUG
、またはDEPRECATED
のいずれかfeature.lifecycle_stage
!=PLANNED
、ALPHA
、DEBUG
、またはDEPRECATED
の場合、-
weighted_feature.name
==feature.name
;また
-
sparse_feature.lifecycle_stage
!=PLANNED
、ALPHA
、DEBUG
、またはDEPRECATED
の場合、-
weighted_feature.name
==sparse_feature.name
-
-
- スキーマフィールド:
WEIGHTED_FEATURE_MISSING_VALUE
- スキーマフィールド:
-
weighted_feature.feature
-
- 統計フィールド:
-
features.custom_stats
-
- 検出条件:
-
features.custom_stats
の名前が「missing_value」で、 -
missing_value
カスタム統計 != 0
-
- スキーマフィールド:
WEIGHTED_FEATURE_MISSING_WEIGHT
- スキーマフィールド:
-
weighted_feature.weight_feature
-
- 統計フィールド:
-
features.custom_stats
-
- 検出条件:
-
features.custom_stats
の名前は「missing_weight」、 -
missing_weight
カスタム統計 != 0
-
- スキーマフィールド:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- スキーマフィールド:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- 統計フィールド:
-
features.custom_stats
-
- 検出条件:
-
features.custom_stats
の名前は「min_weighted_length_diff」または「max_weight_length_diff」、そして min_weight_length_diff
またはmax_weight_length_diff
カスタム統計 != 0
-
- スキーマフィールド:
VALUE_NESTEDNESS_MISMATCH
- スキーマフィールド:
-
feature.value_count
-
feature.value_counts
-
- 統計フィールド:
-
features.common_stats.presence_and_valency_stats
-
- 検出条件:
-
feature.value_count
が指定されており、その機能のpresence_and_valency_stats
が繰り返されており (これは 1 より大きいネスト レベルを示します)、 -
feature.value_counts
指定されており、その機能のpresence_and_valency_stats
繰り返される回数が、feature.value_counts
内でvalue_count
が繰り返される回数と一致しません。
-
- スキーマフィールド:
DOMAIN_INVALID_FOR_TYPE
- スキーマフィールド:
-
feature.type
-
feature.domain_info
-
- 統計フィールド:
-
features.type
-
- 検出条件:
-
features.type
==BYTES
の場合、-
feature.domain_info
は互換性のないタイプです。また
-
features.type
!=BYTES
の場合、-
feature.domain_info
feature.type
と一致しません (例:int_domain
が指定されていますが、feature のtype
はFLOAT
です)
-
-
- スキーマフィールド:
FEATURE_MISSING_NAME
- スキーマフィールド:
-
feature.name
-
- 検出条件:
-
feature.name
が指定されていません
-
- スキーマフィールド:
FEATURE_MISSING_TYPE
- スキーマフィールド:
-
feature.type
-
- 検出条件:
-
feature.type
が指定されていません
-
- スキーマフィールド:
INVALID_SCHEMA_SPECIFICATION
- スキーマフィールド:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- 検出条件:
-
feature.presence.min_fraction
< 0.0 または > 1.0、または feature.value_count.min
< 0 または >feature.value_count.max
、または- bool、int、float、struct、またはセマンティック ドメインが機能に指定されており、
feature.distribution_constraints
もその機能に指定されている、または feature.distribution_constraints
が機能に指定されていますが、その機能にはスキーマレベルのドメインもfeature.string_domain
も指定されていません
-
- スキーマフィールド:
INVALID_DOMAIN_SPECIFICATION
- スキーマフィールド:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- 検出条件:
- 不明な
feature.domain_info
タイプが指定されているか、 -
feature.domain
が指定されていますが、スキーマ レベルで指定された一致するドメインがありません。または feature.bool_domain
、feature.bool_domain.true_value
、およびfeature.bool_domain.false_value
が指定されている場合、-
feature.bool_domain.true_value
==feature.bool_domain.false_value
、または
-
feature.string_domain
が指定されている場合、-
feature.string_domain.values
重複している、または feature.string_domain
最大サイズを超えています
-
- 不明な
- スキーマフィールド:
UNEXPECTED_DATA_TYPE
- スキーマフィールド:
-
feature.type
-
- 統計フィールド:
-
features.type
-
- 検出条件:
-
features.type
、feature.type
で指定されたタイプではありません
-
- スキーマフィールド:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- スキーマフィールド:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- 統計フィールド:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- 検出条件:
-
min_per_sequence
>per_sequence_min_frequency
-
- スキーマフィールド:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- スキーマフィールド:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- 統計フィールド:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- 検出条件:
-
max_per_sequence
<per_sequence_max_frequency
-
- スキーマフィールド:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- スキーマフィールド:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- 統計フィールド:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- 検出条件:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- スキーマフィールド:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- スキーマフィールド:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- 統計フィールド:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- 検出条件:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- スキーマフィールド:
FEATURE_COVERAGE_TOO_LOW
- スキーマフィールド:
-
feature.natural_language_domain.coverage.min_coverage
-
- 統計フィールド:
-
features.custom_stats.nl_statistics.feature_coverage
-
- 検出条件:
-
feature_coverage
<coverage.min_coverage
-
- スキーマフィールド:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- スキーマフィールド:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- 統計フィールド:
-
features.custom_stats.nl_statistics.avg_token_length
-
- 検出条件:
-
avg_token_length
<min_avg_token_length
-
- スキーマフィールド:
NLP_WRONG_LOCATION
- TFDV で異常タイプが検出されない
EMBEDDING_SHAPE_INVALID
- TFDV で異常タイプが検出されない
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- スキーマフィールド:
-
feature.image_domain.max_image_byte_size
-
- 統計フィールド:
-
features.bytes_stats.max_num_bytes_int
-
- 検出条件:
-
max_num_bytes_int
>max_image_byte_size
-
- スキーマフィールド:
INVALID_FEATURE_SHAPE
- スキーマフィールド:
-
feature.shape
-
- 統計フィールド:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- 検出条件:
-
feature.shape
が指定されており、次のいずれかが指定されます- 機能がネスト レベルで欠落している (
num_missing
!= 0) 可能性があります。または - フィーチャには、ネスト レベルで可変数の値 (
min_num_values
!=max_num_values
) が含まれる場合があります。 - 指定された形状は、フィーチャの値カウント統計と互換性がありません。たとえば、形状
[16]
は (min_num_values
==max_num_values
==[2, 2, 4]
(3 ネストされたフィーチャーの場合)) と互換性があります。
- 機能がネスト レベルで欠落している (
-
- スキーマフィールド:
STATS_NOT_AVAILBLE
- 制約を検証するために必要な統計が存在しない場合、異常が発生します。
DERIVED_FEATURE_BAD_LIFECYCLE
- スキーマフィールド:
-
feature.lifecycle_stage
-
- 統計フィールド:
-
features.validation_derived_source
-
- 検出条件:
-
feature.lifecycle_stage
DERIVED
またはDISABLED
のいずれでもなく、features.validation_derived_source
が存在し、これが派生機能であることを示しています。
-
- スキーマフィールド:
DERIVED_FEATURE_INVALID_SOURCE
- スキーマフィールド:
-
feature.validation_derived_source
-
- 統計フィールド:
-
features.validation_derived_source
-
- 検出条件:
-
features.validation_derived_source
は機能に対して存在しますが、対応するfeature.validation_derived_source
は存在しません。
-
- スキーマフィールド:
* このフィールドで加重統計が利用可能な場合は、非加重統計の代わりにそれが使用されます。