مؤلفه خط لوله StatisticsGen TFX آمار ویژگیهایی را هم بر روی دادههای آموزشی و هم در سرویسدهی ایجاد میکند که میتواند توسط سایر اجزای خط لوله استفاده شود. StatisticsGen از Beam برای مقیاس بندی به مجموعه داده های بزرگ استفاده می کند.
- Consumes: مجموعه داده های ایجاد شده توسط یک جزء ExampleGen Pipeline.
- انتشار: آمار مجموعه داده.
اعتبار سنجی داده StatisticsGen و TensorFlow
StatisticsGen از اعتبارسنجی داده های TensorFlow برای تولید آمار از مجموعه داده شما استفاده گسترده ای می کند.
با استفاده از مولفه StatsGen
یک جزء StatisticsGen خط لوله معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به شکل زیر است:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
استفاده از مؤلفه StatsGen با طرحواره
برای اولین اجرای یک خط لوله، خروجی StatisticsGen برای استنتاج یک طرح استفاده خواهد شد. با این حال، در اجراهای بعدی ممکن است طرحی دستی داشته باشید که حاوی اطلاعات اضافی درباره مجموعه دادههای شما باشد. با ارائه این طرح به StatisticsGen، TFDV می تواند آمار مفیدتری را بر اساس ویژگی های اعلام شده مجموعه داده های شما ارائه دهد.
در این تنظیمات، StatisticsGen را با یک طرح انتخاب شده که توسط ImporterNode وارد شده است، فراخوانی می کنید:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
ایجاد یک طرحواره انتخاب شده
Schema
در TFX نمونه ای از پروتوی TensorFlow Metadata Schema
است. این را می توان در قالب متن از ابتدا تشکیل داد. با این حال، استفاده از طرحواره استنباط شده تولید شده توسط SchemaGen
به عنوان نقطه شروع آسان تر است. هنگامی که مولفه SchemaGen
اجرا شد، طرحواره در زیر ریشه خط لوله در مسیر زیر قرار خواهد گرفت:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
جایی که <artifact_id>
یک شناسه منحصر به فرد را برای این نسخه از طرح در MLMD نشان می دهد. سپس میتوان این پروتوی طرحواره را تغییر داد تا اطلاعات مربوط به مجموعه داده را که نمیتوان به طور قابل اعتماد استنباط کرد، تغییر داد، که خروجی StatisticsGen
را مفیدتر و اعتبارسنجی انجام شده در مؤلفه ExampleValidator
را دقیقتر میکند.
جزئیات بیشتر در مرجع StatisticsGen API موجود است.