İstatistikGen TFX işlem hattı bileşeni, diğer işlem hattı bileşenleri tarafından kullanılabilen, hem eğitim hem de hizmet verileri üzerinden özellik istatistikleri oluşturur. İstatistikGen, büyük veri kümelerine ölçeklendirmek için Beam'i kullanır.
- Tüketim: Bir SampleGen ardışık düzen bileşeni tarafından oluşturulan veri kümeleri.
- Yayılanlar: Veri kümesi istatistikleri.
İstatistikGen ve TensorFlow Veri Doğrulaması
İstatistikGen, veri kümenizden istatistik oluşturmak için TensorFlow Veri Doğrulama'yı kapsamlı bir şekilde kullanır.
StatsGen Bileşenini Kullanma
Bir İstatistikGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şuna benzer:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
StatsGen Bileşenini Şemayla Kullanmak
Bir işlem hattının ilk çalıştırılmasında, bir şema çıkarmak için İstatistikGen'in çıktısı kullanılacaktır. Ancak sonraki çalıştırmalarda, veri kümeniz hakkında ek bilgiler içeren, manuel olarak seçilmiş bir şemaya sahip olabilirsiniz. TFDV, bu şemayı İstatistikGen'e sağlayarak, veri kümenizin beyan edilen özelliklerine dayalı olarak daha faydalı istatistikler sağlayabilir.
Bu ayarda, aşağıdaki gibi bir ImporterNode tarafından içe aktarılmış seçilmiş bir şemayla İstatistikGen'i çağıracaksınız:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Seçilmiş Bir Şema Oluşturma
TFX'teki Schema
TensorFlow Meta Veri Schema
protokolünün bir örneğidir. Bu sıfırdan metin formatında oluşturulabilir. Ancak SchemaGen
tarafından üretilen çıkarımsal şemayı başlangıç noktası olarak kullanmak daha kolaydır. SchemaGen
bileşeni yürütüldükten sonra şema, aşağıdaki yolda boru hattı kökünün altına yerleştirilecektir:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Burada <artifact_id>
MLMD'deki şemanın bu sürümü için benzersiz bir kimliği temsil eder. Bu şema protokolü daha sonra veri kümesi hakkında güvenilir bir şekilde çıkarılamayan bilgileri iletmek için değiştirilebilir; bu, StatisticsGen
çıktısını daha kullanışlı hale getirecek ve ExampleValidator
bileşeninde gerçekleştirilen doğrulamayı daha sıkı hale getirecektir.
Daha fazla ayrıntıyı İstatistikGen API referansında bulabilirsiniz.