برخی از مؤلفههای TFX از توصیفی از دادههای ورودی شما به نام طرحواره استفاده میکنند. این طرح یک نمونه از schema.proto است. میتواند انواع دادهها را برای مقادیر ویژگی مشخص کند، اینکه آیا یک ویژگی باید در همه مثالها وجود داشته باشد، محدوده مقادیر مجاز و سایر ویژگیها. یک جزء خط لوله SchemaGen به طور خودکار یک طرح واره را با استنباط انواع، دستهها و محدودهها از دادههای آموزشی ایجاد میکند.
- Consumes: آماری از یک جزء StatisticsGen
- انتشار: پروتوی طرح داده
در اینجا گزیده ای از یک طرح اولیه است:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
کتابخانه های TFX زیر از این طرح استفاده می کنند:
- اعتبارسنجی داده های TensorFlow
- تبدیل TensorFlow
- تحلیل مدل TensorFlow
در یک خط لوله TFX معمولی SchemaGen یک طرح تولید می کند که توسط سایر اجزای خط لوله مصرف می شود. با این حال، طرح تولید خودکار بهترین تلاش است و فقط سعی میکند ویژگیهای اساسی دادهها را استنتاج کند. انتظار می رود که توسعه دهندگان آن را در صورت نیاز بررسی و اصلاح کنند.
طرح اصلاح شده را می توان با استفاده از مؤلفه ImportSchemaGen به خط لوله بازگرداند. مولفه SchemaGen برای تولید طرح اولیه می تواند حذف شود و تمام اجزای پایین دستی می توانند از خروجی ImportSchemaGen استفاده کنند. همچنین توصیه می شود ExampleValidator را با استفاده از طرحواره وارد شده برای بررسی مداوم داده های آموزشی اضافه کنید.
اعتبارسنجی داده SchemaGen و TensorFlow
SchemaGen از اعتبارسنجی داده های TensorFlow برای استنتاج یک طرح واره استفاده گسترده ای می کند.
با استفاده از مولفه SchemaGen
برای تولید طرحواره اولیه
یک جزء خط لوله SchemaGen معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به شکل زیر است:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
جزئیات بیشتر در مرجع SchemaGen API موجود است.
برای واردات طرح بازبینی شده
جزء ImportSchemaGen را به خط لوله اضافه کنید تا تعریف طرحواره بررسی شده را وارد خط لوله کنید.
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
schema_file
باید یک مسیر کامل به فایل متنی protobuf باشد.
جزئیات بیشتر در مرجع ImportSchemaGen API موجود است.