Il componente della pipeline TFX di exampleValidator

Il componente della pipeline EsempioValidator identifica le anomalie nell'addestramento e nella fornitura dei dati. Può rilevare diverse classi di anomalie nei dati. Ad esempio può:

  1. eseguire controlli di validità confrontando le statistiche dei dati con uno schema che codifica le aspettative dell'utente.
  2. rilevare l'asimmetria della fornitura di formazione confrontando i dati di formazione e di fornitura.
  3. rilevare la deriva dei dati esaminando una serie di dati.
  4. eseguire convalide personalizzate utilizzando una configurazione basata su SQL.

Il componente della pipeline EsempioValidator identifica eventuali anomalie nei dati di esempio confrontando le statistiche dei dati calcolate dal componente della pipeline StatisticsGen con uno schema. Lo schema dedotto codifica le proprietà che i dati di input dovrebbero soddisfare e può essere modificato dallo sviluppatore.

  • Consuma: uno schema da un componente SchemaGen e statistiche da un componente StatisticsGen.
  • Emette: risultati di convalida

EsempioValidator e convalida dei dati TensorFlow

EsempioValidator fa ampio uso di TensorFlow Data Validation per convalidare i dati di input.

Utilizzo del componente EsempioValidator

Un componente della pipeline EsempioValidator è in genere molto semplice da distribuire e richiede poca personalizzazione. Il codice tipico è simile al seguente:

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Maggiori dettagli sono disponibili nel riferimento API exampleValidator .