مؤلفه خط لوله SchemaGen TFX

برخی از مؤلفه‌های TFX از توصیفی از داده‌های ورودی شما به نام طرحواره استفاده می‌کنند. این طرح یک نمونه از schema.proto است. می‌تواند انواع داده‌ها را برای مقادیر ویژگی مشخص کند، اینکه آیا یک ویژگی باید در همه مثال‌ها وجود داشته باشد، محدوده مقادیر مجاز و سایر ویژگی‌ها. یک جزء خط لوله SchemaGen به طور خودکار یک طرح واره را با استنباط انواع، دسته‌ها و محدوده‌ها از داده‌های آموزشی ایجاد می‌کند.

  • Consumes: آماری از یک جزء StatisticsGen
  • انتشار: پروتوی طرح داده

در اینجا گزیده ای از یک طرح اولیه است:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

کتابخانه های TFX زیر از این طرح استفاده می کنند:

  • اعتبارسنجی داده های TensorFlow
  • تبدیل TensorFlow
  • تحلیل مدل TensorFlow

در یک خط لوله TFX معمولی SchemaGen یک طرح تولید می کند که توسط سایر اجزای خط لوله مصرف می شود. با این حال، طرح تولید خودکار بهترین تلاش است و فقط سعی می‌کند ویژگی‌های اساسی داده‌ها را استنتاج کند. انتظار می رود که توسعه دهندگان آن را در صورت نیاز بررسی و اصلاح کنند.

طرح اصلاح شده را می توان با استفاده از مؤلفه ImportSchemaGen به خط لوله بازگرداند. مولفه SchemaGen برای تولید طرح اولیه می تواند حذف شود و تمام اجزای پایین دستی می توانند از خروجی ImportSchemaGen استفاده کنند. همچنین توصیه می شود ExampleValidator را با استفاده از طرحواره وارد شده برای بررسی مداوم داده های آموزشی اضافه کنید.

اعتبارسنجی داده SchemaGen و TensorFlow

SchemaGen از اعتبارسنجی داده های TensorFlow برای استنتاج یک طرح واره استفاده گسترده ای می کند.

با استفاده از مولفه SchemaGen

برای تولید طرحواره اولیه

یک جزء خط لوله SchemaGen معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به شکل زیر است:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

جزئیات بیشتر در مرجع SchemaGen API موجود است.

برای واردات طرح بازبینی شده

جزء ImportSchemaGen را به خط لوله اضافه کنید تا تعریف طرحواره بررسی شده را وارد خط لوله کنید.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file باید یک مسیر کامل به فایل متنی protobuf باشد.

جزئیات بیشتر در مرجع ImportSchemaGen API موجود است.