TFDV controlla le anomalie confrontando uno schema e prototipi statistici. Il grafico seguente elenca i tipi di anomalia che TFDV può rilevare, i campi dello schema e delle statistiche utilizzati per rilevare ogni tipo di anomalia e le condizioni in cui viene rilevato ogni tipo di anomalia.
BOOL_TYPE_BIG_INT
- Campi dello schema:
-
feature.bool_domain
-
- Campi statistici:
-
features.num_stats.max
-
features.type
-
- Condizione di rilevamento:
-
feature.bool_domain
è specificato e -
features.type
==INT
e -
features.num_stats.max
> 1
-
- Campi dello schema:
BOOL_TYPE_BYTES_NOT_INT
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_BYTES_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_FLOAT_NOT_INT
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_INT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_SMALL_INT
- Campi dello schema:
-
feature.bool_domain
-
- Campi statistici:
-
features.num_stats.min
-
features.type
-
- Condizione di rilevamento:
-
features.type
==INT
e -
feature.bool_domain
è specificato e -
features.num_stats.min
< 0
-
- Campi dello schema:
BOOL_TYPE_STRING_NOT_INT
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_UNEXPECTED_STRING
- Campi dello schema:
-
feature.bool_domain
-
- Campi statistici:
-
features.string_stats.rank_histogram
*
-
- Condizione di rilevamento:
-
features.type
==STRING
e -
feature.bool_domain
è specificato e - almeno un valore in
rank_histogram
* non èfeature.bool_domain.true_value
ofeature.bool_domain.false_value
-
- Campi dello schema:
BOOL_TYPE_UNEXPECTED_FLOAT
- Campi dello schema:
-
feature.bool_domain
-
- Campi statistici:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- Condizione di rilevamento:
-
features.type
==FLOAT
e -
feature.bool_domain
è specificato e uno dei due- (
features.num_stats.min
!= 0 ofeatures.num_stats.min
!= 1) o - (
features.num_stats.max
!= 0 ofeatures.num_stats.max
!= 1) o -
features.num_stats.histograms.num_nan
> 0 oppure - (
features.num_stats.histograms.buckets.low_value
!= 0 ofeatures.num_stats.histograms.buckets.high_value
!= 1) efeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- Campi dello schema:
BOOL_TYPE_INVALID_CONFIG
- Campi dello schema:
-
feature.bool_domain
-
- Campi statistici:
-
features.type
-
- Condizione di rilevamento:
- Se
features.type
==INT
oFLOAT
,-
feature.bool_domain
è specificato e -
feature.bool_domain.true_value
ofeature.bool_domain.false_value
è specificato, oppure
-
- se
features.type
==STRING
,-
feature.bool_domain
è specificato e -
feature.bool_domain.true_value
efeature.bool_domain.false_value
non sono specificati
-
- Se
- Campi dello schema:
ENUM_TYPE_BYTES_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
ENUM_TYPE_INT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
ENUM_TYPE_INVALID_UTF8
- Campi statistici:
-
features.string_stats.invalid_utf8_count
-
- Condizione di rilevamento:
-
invalid_utf8_count
> 0
-
- Campi statistici:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- Campi dello schema:
-
string_domain
efeature.domain
; ofeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- Campi statistici:
-
features.string_stats.rank_histogram
*
-
- Condizione di rilevamento:
- O (numero di valori in
rank_histogram
* che non sono nel dominio / numero totale di valori) > (1 -feature.distribution_constraints.min_domain_mass
) o -
feature.distribution_constraints.min_domain_mass
== 1.0 e ci sono valori nell'istogramma che non sono nel dominio
- O (numero di valori in
- Campi dello schema:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- Campi dello schema:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- Campi statistici:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- Condizione di rilevamento:
- Se
feature.value_count.max
è specificato-
features.common_stats.max_num_values
>feature.value_count.max
; O
-
- se
feature.value_counts
è specificato-
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
a un determinato livello di nidificazione
-
- Se
- Campi dello schema:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- Campi dello schema:
-
feature.presence.min_fraction
-
- Campi statistici:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- Condizione di rilevamento:
-
feature.presence.min_fraction
è specificato e (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
o -
feature.presence.min_fraction
== 1.0 ecommon_stats.num_missing
!= 0
-
- Campi dello schema:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- Campi dello schema:
-
feature.presence.min_count
-
- Campi statistici:
-
features.common_stats.num_non_missing
*
-
- Condizione di rilevamento:
-
feature.presence.min_count
è specificato e uno dei due-
features.common_stats.num_non_missing
* == 0 o -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- Campi dello schema:
FEATURE_TYPE_LOW_NUMBER_VALUES
- Campi dello schema:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- Campi statistici:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- Condizione di rilevamento:
- Se
feature.value_count.min
è specificato-
features.common_stats.min_num_values
<feature.value_count.min
; O
-
- se
feature.value_counts
è specificato-
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
a un dato livello di nidificazione
-
- Se
- Campi dello schema:
FEATURE_TYPE_NOT_PRESENT
- Campi dello schema:
-
feature.in_environment
ofeature.not_in_environment
oschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
ofeature.presence.min_fraction
-
- Campi statistici:
-
features.common_stats.num_non_missing
*
-
- Condizione di rilevamento:
-
feature.lifecycle_stage
non in [PLANNED
,ALPHA
,DEBUG
,DEPRECATED
] e -
common_stats.num_non_missing
* == 0 e - (
feature.presence.min_count
> 0 ofeature.presence.min_fraction
> 0) e uno-
feature.in_environment
== ambiente corrente o -
feature.not_in_environment
!= ambiente corrente o -
schema.default_environment
!= ambiente corrente
-
-
- Campi dello schema:
FEATURE_TYPE_NO_VALUES
- Tipo di anomalia non rilevato in TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- Tipo di anomalia non rilevato in TFDV
FEATURE_TYPE_HIGH_UNIQUE
- Campi dello schema:
-
feature.unique_constraints.max
-
- Campi statistici:
-
features.string_stats.unique
-
- Condizione di rilevamento:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- Campi dello schema:
FEATURE_TYPE_LOW_UNIQUE
- Campi dello schema:
-
feature.unique_constraints.min
-
- Campi statistici:
-
features.string_stats.unique
-
- Condizione di rilevamento:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- Campi dello schema:
FEATURE_TYPE_NO_UNIQUE
- Campi dello schema:
-
feature.unique_constraints
-
- Campi statistici:
-
features.string_stats.unique
-
- Condizione di rilevamento:
-
feature.unique_constraints
specificato ma nessunfeatures.string_stats.unique
presente (come nel caso in cui la caratteristica non è una stringa o una categoria)
-
- Campi dello schema:
FLOAT_TYPE_BIG_FLOAT
- Campi dello schema:
-
feature.float_domain.max
-
- Campi statistici:
-
features.type
-
features.num_stats.max
ofeatures.string_stats.rank_histogram
-
- Condizione di rilevamento:
- Se
features.type
==FLOAT
,-
features.num_stats.max
>feature.float_domain.max
; O
-
- se
features.type
==BYTES
oSTRING
,- valore massimo in
features.string_stats.rank_histogram
(quando convertito in float) >feature.float_domain.max
- valore massimo in
- Se
- Campi dello schema:
FLOAT_TYPE_NOT_FLOAT
- Tipo di anomalia non rilevato in TFDV
FLOAT_TYPE_SMALL_FLOAT
- Campi dello schema:
-
feature.float_domain.min
-
- Campi statistici:
-
features.type
-
features.num_stats.min
ofeatures.string_stats.rank_histogram
-
- Condizione di rilevamento:
- Se
features.type
==FLOAT
,-
features.num_stats.min
<feature.float_domain.min
; O
-
- se
features.type
==BYTES
oSTRING
,- valore minimo in
features.string_stats.rank_histogram
(quando convertito in float) <feature.float_domain.min
- valore minimo in
- Se
- Campi dello schema:
FLOAT_TYPE_STRING_NOT_FLOAT
- Campi dello schema:
-
feature.float_domain
-
- Campi statistici:
-
features.type
-
features.string_stats.rank_histogram
-
- Condizione di rilevamento:
-
features.type
==BYTES
oSTRING
e -
features.string_stats.rank_histogram
ha almeno un valore che non può essere convertito in float
-
- Campi dello schema:
FLOAT_TYPE_NON_STRING
- Tipo di anomalia non rilevato in TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- Tipo di anomalia non rilevato in TFDV
FLOAT_TYPE_HAS_NAN
- Campi dello schema:
-
feature.float_domain.disallow_nan
-
- Campi statistici:
-
features.type
-
features.num_stats.histograms.num_nan
-
- Condizione di rilevamento:
-
float_domain.disallow_nan
è vero e -
features.num_stats.histograms.num_nan
> 0
-
- Campi dello schema:
FLOAT_TYPE_HAS_INF
- Campi dello schema:
-
feature.float_domain.disallow_inf
-
- Campi statistici:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- Condizione di rilevamento:
-
features.type
==FLOAT
-
float_domain.disallow_inf
è vero e neanche-
features.num_stats.min
==inf/-inf
o -
features.num_stats.max
==inf/-inf
-
-
- Campi dello schema:
INT_TYPE_BIG_INT
- Campi dello schema:
-
feature.int_domain.max
-
- Campi statistici:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- Condizione di rilevamento:
- Se
features.type
==INT
,-
features.num_stats.max
>feature.int_domain.max
; O
-
- se
features.type
==BYTES
oSTRING
,- valore massimo in
features.string_stats.rank_histogram
(se convertito in int) >feature.int_domain.max
- valore massimo in
- Se
- Campi dello schema:
INT_TYPE_INT_EXPECTED
- Tipo di anomalia non rilevato in TFDV
INT_TYPE_NOT_INT_STRING
- Campi dello schema:
-
feature.int_domain
-
- Campi statistici:
-
features.type
-
features.string_stats.rank_histogram
-
- Condizione di rilevamento:
-
features.type
==BYTES
oSTRING
e -
features.string_stats.rank_histogram
ha almeno un valore che non può essere convertito in un int
-
- Campi dello schema:
INT_TYPE_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
INT_TYPE_SMALL_INT
- Campi dello schema:
-
feature.int_domain.min
-
- Campi statistici:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- Condizione di rilevamento:
- Se
features.type
==INT
,-
features.num_stats.min
<feature.int_domain.min
; O
-
- se
features.type
==BYTES
oSTRING
,- valore minimo in
features.string_stats.rank_histogram
(se convertito in int) <feature.int_domain.min
- valore minimo in
- Se
- Campi dello schema:
INT_TYPE_STRING_EXPECTED
- Tipo di anomalia non rilevato in TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- Tipo di anomalia non rilevato in TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- Campi dello schema:
-
feature.image_domain.minimum_supported_image_fraction
-
- Campi statistici:
-
features.custom_stats.rank_histogram
per custom_stats con nomeimage_format_histogram
. Si noti che le statistiche del dominio semantico devono essere abilitate per la generazione di image_format_histogram e per l'esecuzione di questa convalida. Le statistiche del dominio semantico non vengono generate per impostazione predefinita.
-
- Condizione di rilevamento:
- La frazione di valori supportati dai tipi di immagine Tensorflow per tutti i tipi di immagine è inferiore a
feature.image_domain.minimum_supported_image_fraction
.
- La frazione di valori supportati dai tipi di immagine Tensorflow per tutti i tipi di immagine è inferiore a
- Campi dello schema:
SCHEMA_MISSING_COLUMN
- Campi dello schema:
-
feature.in_environment
ofeature.not_in_environment
oschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
ofeature.presence.min_fraction
-
- Condizione di rilevamento:
-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
oDEPRECATED
e -
feature.presence.min_count
> 0 ofeature.presence.min_fraction
> 0 e -
feature.in_environment
== ambiente corrente ofeature.not_in_environment
!= ambiente corrente oschema.default_environment
!= ambiente corrente e - nessuna caratteristica con il nome/percorso specificato viene trovata nel protocollo delle statistiche
-
- Campi dello schema:
SCHEMA_NEW_COLUMN
- Condizione di rilevamento:
- c'è una funzione nel protocollo delle statistiche ma nessuna funzione con il suo nome/percorso nel protocollo dello schema
- Condizione di rilevamento:
SCHEMA_TRAINING_SERVING_SKEW
- Tipo di anomalia non rilevato in TFDV
STRING_TYPE_NOW_FLOAT
- Tipo di anomalia non rilevato in TFDV
STRING_TYPE_NOW_INT
- Tipo di anomalia non rilevato in TFDV
COMPARATOR_CONTROL_DATA_MISSING
- Campi dello schema:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Condizione di rilevamento:
- il protocollo delle statistiche di controllo (ovvero, le statistiche di pubblicazione per l'asimmetria o le statistiche precedenti per la deriva) è disponibile ma non contiene la funzione specificata
- Campi dello schema:
COMPARATOR_TREATMENT_DATA_MISSING
- Tipo di anomalia non rilevato in TFDV
COMPARATOR_L_INFTY_HIGH
- Campi dello schema:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Campi statistici:
-
features.string_stats.rank_histogram
*
-
- Condizione di rilevamento:
- L-infinity norm del vettore che rappresenta la differenza tra i conteggi normalizzati da
features.string_stats.rank_histogram
* nelle statistiche di controllo (ovvero le statistiche di servizio per lo skew o le statistiche precedenti per la deriva) e le statistiche di trattamento (ovvero le statistiche di addestramento per skew o statistiche correnti per la deriva) >feature.skew_comparator.infinity_norm.threshold
ofeature.drift_comparator.infinity_norm.threshold
- L-infinity norm del vettore che rappresenta la differenza tra i conteggi normalizzati da
- Campi dello schema:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- Campi dello schema:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- Campi statistici:
-
features.string_stats.rank_histogram
-
- Condizione di rilevamento:
- La differenza di conteggio assoluta normalizzata dei conteggi di valore dal
features.string_stats.rank_histogram
nelle statistiche di controllo (ovvero, statistiche di pubblicazione per skew o statistiche precedenti per drift) e nelle statistiche di trattamento (ovvero, statistiche di addestramento per skew o statistiche correnti per drift) superate feature.skew_comparator.normalized_abs_difference.threshold o feature.drift_comparator.normalized_abs_difference.threshold. Le differenze di conteggio sono normalizzate dal conteggio totale in entrambe le condizioni.
- La differenza di conteggio assoluta normalizzata dei conteggi di valore dal
- Campi dello schema:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- Campi dello schema:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- Campi statistici:
-
features.num_stats.histograms
di tipoSTANDARD
-
features.string_stats.rank_histogram
*
-
- Condizione di rilevamento:
- La divergenza approssimativa di Jensen-Shannon calcolata tra le statistiche di controllo (ad es. statistiche di servizio per l'asimmetria o statistiche precedenti per la deriva) e le statistiche di trattamento (ad es. statistiche di addestramento per l'asimmetria o statistiche correnti per la deriva) >
feature.skew_comparator.jensen_shannon_divergence.threshold
ofeature.drift_comparator.jensen_shannon_divergence.threshold
. La divergenza Jensen-Shannon approssimativa viene calcolata in base ai conteggi dei campioni normalizzati sia infeatures.num_stats.histograms
standard histogram che infeatures.string_stats.rank_histogram
*.
- La divergenza approssimativa di Jensen-Shannon calcolata tra le statistiche di controllo (ad es. statistiche di servizio per l'asimmetria o statistiche precedenti per la deriva) e le statistiche di trattamento (ad es. statistiche di addestramento per l'asimmetria o statistiche correnti per la deriva) >
- Campi dello schema:
NO_DATA_IN_SPAN
- Tipo di anomalia non rilevato in TFDV
SPARSE_FEATURE_MISSING_VALUE
- Campi dello schema:
-
sparse_feature.value_feature
-
- Campi statistici:
-
features.custom_stats
-
- Condizione di rilevamento:
-
features.custom_stats
con "missing_value" come nome e -
missing_value
statistica personalizzata != 0
-
- Campi dello schema:
SPARSE_FEATURE_MISSING_INDEX
- Campi dello schema:
-
sparse_feature.index_feature
-
- Campi statistici:
-
features.custom_stats
-
- Condizione di rilevamento:
-
features.custom_stats
con "missing_index" come nome e - La statistica personalizzata
missing_index
contiene qualsiasi valore != 0
-
- Campi dello schema:
SPARSE_FEATURE_LENGTH_MISMATCH
- Campi dello schema:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- Campi statistici:
-
features.custom_stats
-
- Condizione di rilevamento:
-
features.custom_stats
con "min_length_diff" o "max_length_diff" come nome - La statistica personalizzata
min_length_diff
omax_length_diff
contiene qualsiasi valore != 0
-
- Campi dello schema:
SPARSE_FEATURE_NAME_COLLISION
- Campi dello schema:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Condizione di rilevamento:
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
oDEPRECATED
e -
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
oDEPRECATED
e -
sparse_feature.name
==feature.name
-
- Campi dello schema:
SEMANTIC_DOMAIN_UPDATE
- Campi dello schema:
-
feature.domain_info
-
- Campi statistici:
-
features.custom_stats
-
- Condizione di rilevamento:
-
features.custom_stats
con "domain_info" come nome e -
feature.domain_info
non è già impostato nello schema e - c'è una singola statistica personalizzata
domain_info
per la funzione
-
- Campi dello schema:
COMPARATOR_LOW_NUM_EXAMPLES
- Campi dello schema:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- Campi statistici:
-
num_examples
*
-
- Condizione di rilevamento:
-
num_examples
* > 0 e - è disponibile il protocollo statistico precedente e
-
num_examples
* / statistiche precedentinum_examples
* < comparatoremin_fraction_threshold
-
- Campi dello schema:
COMPARATOR_HIGH_NUM_EXAMPLES
- Campi dello schema:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- Campi statistici:
-
num_examples
*
-
- Condizione di rilevamento:
-
num_examples
* > 0 e - è disponibile il protocollo statistico precedente e
-
num_examples
* / statistiche precedentinum_examples
* > comparatoremax_fraction_threshold
-
- Campi dello schema:
DATASET_LOW_NUM_EXAMPLES
- Campi dello schema:
-
schema.dataset_constraints.min_examples_count
-
- Campi statistici:
-
num_examples
*
-
- Condizione di rilevamento:
-
num_examples
* <dataset_constraints.min_examples_count
-
- Campi dello schema:
DATASET_HIGH_NUM_EXAMPLES
- Campi dello schema:
-
schema.dataset_constraints.max_examples_count
-
- Campi statistici:
-
num_examples
*
-
- Condizione di rilevamento:
-
num_examples
* >dataset_constraints.max_examples_count
-
- Campi dello schema:
WEIGHTED_FEATURE_NAME_COLLISION
- Campi dello schema:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Condizione di rilevamento:
-
weighted_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
oDEPRECATED
e uno dei due- if
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
oDEPRECATED
,-
weighted_feature.name
==feature.name
; O
-
- if
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
oDEPRECATED
,-
weighted_feature.name
==sparse_feature.name
-
- if
-
- Campi dello schema:
WEIGHTED_FEATURE_MISSING_VALUE
- Campi dello schema:
-
weighted_feature.feature
-
- Campi statistici:
-
features.custom_stats
-
- Condizione di rilevamento:
-
features.custom_stats
con "missing_value" come nome e -
missing_value
statistica personalizzata != 0
-
- Campi dello schema:
WEIGHTED_FEATURE_MISSING_WEIGHT
- Campi dello schema:
-
weighted_feature.weight_feature
-
- Campi statistici:
-
features.custom_stats
-
- Condizione di rilevamento:
-
features.custom_stats
con "missing_weight" come nome e - statistica personalizzata
missing_weight
!= 0
-
- Campi dello schema:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- Campi dello schema:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- Campi statistici:
-
features.custom_stats
-
- Condizione di rilevamento:
-
features.custom_stats
con "min_weighted_length_diff" o "max_weight_length_diff" come nome e -
min_weight_length_diff
omax_weight_length_diff
statistica personalizzata != 0
-
- Campi dello schema:
VALUE_NESTEDNESS_MISMATCH
- Campi dello schema:
-
feature.value_count
-
feature.value_counts
-
- Campi statistici:
-
features.common_stats.presence_and_valency_stats
-
- Condizione di rilevamento:
-
feature.value_count
è specificato ed è presente unpresence_and_valency_stats
ripetuto della caratteristica (che indica un livello di nidificazione maggiore di uno) e -
feature.value_counts
è specificato e il numero di volte in cui viene ripetutopresence_and_valency_stats
dell'elemento non corrisponde al numero di volte in cuivalue_count
viene ripetuto all'interno difeature.value_counts
-
- Campi dello schema:
DOMAIN_INVALID_FOR_TYPE
- Campi dello schema:
-
feature.type
-
feature.domain_info
-
- Campi statistici:
-
features.type
-
- Condizione di rilevamento:
- Se
features.type
==BYTES
,-
feature.domain_info
è di tipo incompatibile; O
-
- se
features.type
!=BYTES
,-
feature.domain_info
non corrisponde afeature.type
(ad esempio,int_domain
è specificato, matype
di funzionalità èFLOAT
)
-
- Se
- Campi dello schema:
FEATURE_MISSING_NAME
- Campi dello schema:
-
feature.name
-
- Condizione di rilevamento:
-
feature.name
non è specificato
-
- Campi dello schema:
FEATURE_MISSING_TYPE
- Campi dello schema:
-
feature.type
-
- Condizione di rilevamento:
-
feature.type
non è specificato
-
- Campi dello schema:
INVALID_SCHEMA_SPECIFICATION
- Campi dello schema:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- Condizione di rilevamento:
-
feature.presence.min_fraction
< 0.0 o > 1.0, o -
feature.value_count.min
< 0 o >feature.value_count.max
, oppure - un dominio bool, int, float, struct o semantico è specificato per una caratteristica e anche
feature.distribution_constraints
è specificato per quella caratteristica, oppure -
feature.distribution_constraints
è specificato per una funzionalità, ma non è specificato né un dominio a livello di schema néfeature.string_domain
per quella funzionalità
-
- Campi dello schema:
INVALID_DOMAIN_SPECIFICATION
- Campi dello schema:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- Condizione di rilevamento:
- Il tipo di
feature.domain_info
sconosciuto è specificato o -
feature.domain
è specificato, ma non esiste un dominio corrispondente specificato a livello di schema oppure - se
feature.bool_domain
,feature.bool_domain.true_value
efeature.bool_domain.false_value
sono specificati,-
feature.bool_domain.true_value
==feature.bool_domain.false_value
, o
-
- se
feature.string_domain
è specificato,- ha duplicato
feature.string_domain.values
o -
feature.string_domain
supera la dimensione massima
- ha duplicato
- Il tipo di
- Campi dello schema:
UNEXPECTED_DATA_TYPE
- Campi dello schema:
-
feature.type
-
- Campi statistici:
-
features.type
-
- Condizione di rilevamento:
-
features.type
non è del tipo specificato infeature.type
-
- Campi dello schema:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- Campi dello schema:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- Campi statistici:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- Condizione di rilevamento:
-
min_per_sequence
>per_sequence_min_frequency
-
- Campi dello schema:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- Campi dello schema:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- Campi statistici:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- Condizione di rilevamento:
-
max_per_sequence
<per_sequence_max_frequency
-
- Campi dello schema:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- Campi dello schema:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- Campi statistici:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Condizione di rilevamento:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- Campi dello schema:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- Campi dello schema:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- Campi statistici:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Condizione di rilevamento:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- Campi dello schema:
FEATURE_COVERAGE_TOO_LOW
- Campi dello schema:
-
feature.natural_language_domain.coverage.min_coverage
-
- Campi statistici:
-
features.custom_stats.nl_statistics.feature_coverage
-
- Condizione di rilevamento:
-
feature_coverage
<coverage.min_coverage
-
- Campi dello schema:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- Campi dello schema:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- Campi statistici:
-
features.custom_stats.nl_statistics.avg_token_length
-
- Condizione di rilevamento:
-
avg_token_length
<min_avg_token_length
-
- Campi dello schema:
NLP_WRONG_LOCATION
- Tipo di anomalia non rilevato in TFDV
EMBEDDING_SHAPE_INVALID
- Tipo di anomalia non rilevato in TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- Campi dello schema:
-
feature.image_domain.max_image_byte_size
-
- Campi statistici:
-
features.bytes_stats.max_num_bytes_int
-
- Condizione di rilevamento:
-
max_num_bytes_int
>max_image_byte_size
-
- Campi dello schema:
INVALID_FEATURE_SHAPE
- Campi dello schema:
-
feature.shape
-
- Campi statistici:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- Condizione di rilevamento:
-
feature.shape
è specificato e uno dei due- la funzione potrebbe mancare (
num_missing
!= 0) a qualche livello di nidificazione o - la caratteristica può avere un numero variabile di valori (
min_num_values
!=max_num_values
) a qualche livello di nidificazione o - la forma specificata non è compatibile con le statistiche di conteggio del valore dell'elemento. Ad esempio, la forma
[16]
è compatibile con (min_num_values
==max_num_values
==[2, 2, 4]
(per una feature a 3 nidificazioni))
- la funzione potrebbe mancare (
-
- Campi dello schema:
STATS_NOT_AVAILBLE
- L'anomalia si verifica quando le statistiche necessarie per convalidare i vincoli non sono presenti.
DERIVED_FEATURE_BAD_LIFECYCLE
- Campi dello schema:
-
feature.lifecycle_stage
-
- Campi statistici:
-
features.validation_derived_source
-
- Condizione di rilevamento:
-
feature.lifecycle_stage
non è uno traDERIVED
oDISABLED
ed è presentefeatures.validation_derived_source
, a indicare che si tratta di una funzionalità derivata.
-
- Campi dello schema:
DERIVED_FEATURE_INVALID_SOURCE
- Campi dello schema:
-
feature.validation_derived_source
-
- Campi statistici:
-
features.validation_derived_source
-
- Condizione di rilevamento:
-
features.validation_derived_source
è presente per una funzionalità, ma lafeature.validation_derived_source
corrispondente non lo è.
-
- Campi dello schema:
* Se per questo campo è disponibile una statistica ponderata, verrà utilizzata al posto della statistica non ponderata.