Komponen pipeline TFX StatisticsGen menghasilkan statistik fitur pada data pelatihan dan penyajian, yang dapat digunakan oleh komponen pipeline lainnya. StatisticsGen menggunakan Beam untuk menskalakan ke kumpulan data besar.
- Mengkonsumsi: himpunan data yang dibuat oleh komponen pipeline ContohGen.
- Memancarkan: Statistik kumpulan data.
Validasi Data StatisticsGen dan TensorFlow
StatisticsGen memanfaatkan Validasi Data TensorFlow secara ekstensif untuk menghasilkan statistik dari kumpulan data Anda.
Menggunakan Komponen StatsGen
Komponen pipeline StatisticsGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode tipikal terlihat seperti ini:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Menggunakan Komponen StatsGen Dengan Skema
Untuk pengoperasian pipeline yang pertama, keluaran StatisticsGen akan digunakan untuk menyimpulkan skema. Namun, pada proses berikutnya, Anda mungkin memiliki skema yang dikurasi secara manual yang berisi informasi tambahan tentang kumpulan data Anda. Dengan memberikan skema ini ke StatisticsGen, TFDV dapat memberikan statistik yang lebih berguna berdasarkan properti kumpulan data Anda yang dideklarasikan.
Dalam pengaturan ini, Anda akan memanggil StatisticsGen dengan skema pilihan yang telah diimpor oleh ImporterNode seperti ini:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Membuat Skema yang Dikurasi
Schema
di TFX adalah turunan dari proto Schema
Metadata TensorFlow. Ini dapat disusun dalam format teks dari awal. Namun, lebih mudah menggunakan skema kesimpulan yang dihasilkan oleh SchemaGen
sebagai titik awal. Setelah komponen SchemaGen
dijalankan, skema akan ditempatkan di bawah akar pipa di jalur berikut:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Dimana <artifact_id>
mewakili ID unik untuk versi skema ini di MLMD. Proto skema ini kemudian dapat dimodifikasi untuk mengkomunikasikan informasi tentang kumpulan data yang tidak dapat disimpulkan dengan andal, yang akan membuat keluaran StatisticsGen
lebih berguna dan validasi yang dilakukan dalam komponen ExampleValidator
menjadi lebih ketat.
Detail selengkapnya tersedia di referensi API StatisticsGen .