Komponen Saluran Pipa TFX StatisticsGen

Komponen pipeline TFX StatisticsGen menghasilkan statistik fitur pada data pelatihan dan penyajian, yang dapat digunakan oleh komponen pipeline lainnya. StatisticsGen menggunakan Beam untuk menskalakan ke kumpulan data besar.

  • Mengkonsumsi: himpunan data yang dibuat oleh komponen pipeline ContohGen.
  • Memancarkan: Statistik kumpulan data.

Validasi Data StatisticsGen dan TensorFlow

StatisticsGen memanfaatkan Validasi Data TensorFlow secara ekstensif untuk menghasilkan statistik dari kumpulan data Anda.

Menggunakan Komponen StatsGen

Komponen pipeline StatisticsGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode tipikal terlihat seperti ini:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Menggunakan Komponen StatsGen Dengan Skema

Untuk pengoperasian pipeline yang pertama, keluaran StatisticsGen akan digunakan untuk menyimpulkan skema. Namun, pada proses berikutnya, Anda mungkin memiliki skema yang dikurasi secara manual yang berisi informasi tambahan tentang kumpulan data Anda. Dengan memberikan skema ini ke StatisticsGen, TFDV dapat memberikan statistik yang lebih berguna berdasarkan properti kumpulan data Anda yang dideklarasikan.

Dalam pengaturan ini, Anda akan memanggil StatisticsGen dengan skema pilihan yang telah diimpor oleh ImporterNode seperti ini:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Membuat Skema yang Dikurasi

Schema di TFX adalah turunan dari proto Schema Metadata TensorFlow. Ini dapat disusun dalam format teks dari awal. Namun, lebih mudah menggunakan skema kesimpulan yang dihasilkan oleh SchemaGen sebagai titik awal. Setelah komponen SchemaGen dijalankan, skema akan ditempatkan di bawah akar pipa di jalur berikut:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Dimana <artifact_id> mewakili ID unik untuk versi skema ini di MLMD. Proto skema ini kemudian dapat dimodifikasi untuk mengkomunikasikan informasi tentang kumpulan data yang tidak dapat disimpulkan dengan andal, yang akan membuat keluaran StatisticsGen lebih berguna dan validasi yang dilakukan dalam komponen ExampleValidator menjadi lebih ketat.

Detail selengkapnya tersedia di referensi API StatisticsGen .