SchemaGen TFX Pipeline Bileşeni

Bazı TFX bileşenleri giriş verilerinizin şema adı verilen bir tanımını kullanır. Şema, schema.proto'nun bir örneğidir. Özellik değerleri için veri türlerini, bir özelliğin tüm örneklerde mevcut olup olmayacağını, izin verilen değer aralıklarını ve diğer özellikleri belirtebilir. Bir SchemaGen işlem hattı bileşeni, eğitim verilerinden türleri, kategorileri ve aralıkları çıkararak otomatik olarak bir şema oluşturacaktır.

  • Tüketim: bir İstatistikGen bileşeninden alınan istatistikler
  • Yayar: Veri şeması protokolü

İşte şema protokolünden bir alıntı:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Aşağıdaki TFX kitaplıkları şemayı kullanır:

  • TensorFlow Veri Doğrulaması
  • TensorFlow Dönüşümü
  • TensorFlow Model Analizi

Tipik bir TFX işlem hattında SchemaGen, diğer işlem hattı bileşenleri tarafından tüketilen bir şema oluşturur. Bununla birlikte, otomatik olarak oluşturulan şema en iyi çabadır ve yalnızca verilerin temel özelliklerini çıkarmaya çalışır. Geliştiricilerin bunu gözden geçirmesi ve gerektiğinde değiştirmesi bekleniyor.

Değiştirilen şema, ImportSchemaGen bileşeni kullanılarak ardışık düzene geri getirilebilir. İlk şema oluşturmaya yönelik SchemaGen bileşeni kaldırılabilir ve tüm aşağı akış bileşenleri, ImportSchemaGen çıktısını kullanabilir. Ayrıca eğitim verilerinin sürekli olarak incelenmesi için içe aktarılan şemayı kullanarak SampleValidator'ın eklenmesi de önerilir.

SchemaGen ve TensorFlow Veri Doğrulaması

SchemaGen, bir şema çıkarmak için TensorFlow Veri Doğrulama'yı kapsamlı bir şekilde kullanır.

SchemaGen Bileşenini Kullanma

İlk şema üretimi için

Bir SchemaGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şuna benzer:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Daha fazla ayrıntıyı SchemaGen API referansında bulabilirsiniz.

İncelenen şemanın içe aktarımı için

İncelenen şema tanımını işlem hattına getirmek için ImportSchemaGen bileşenini işlem hattına ekleyin.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file metin protobuf dosyasının tam yolu olmalıdır.

Daha fazla ayrıntıyı ImportSchemaGen API referansında bulabilirsiniz.