مؤلفه خط لوله StatisticsGen TFX

مؤلفه خط لوله StatisticsGen TFX آمار ویژگی‌هایی را هم بر روی داده‌های آموزشی و هم در سرویس‌دهی ایجاد می‌کند که می‌تواند توسط سایر اجزای خط لوله استفاده شود. StatisticsGen از Beam برای مقیاس بندی به مجموعه داده های بزرگ استفاده می کند.

  • Consumes: مجموعه داده های ایجاد شده توسط یک جزء ExampleGen Pipeline.
  • انتشار: آمار مجموعه داده.

اعتبار سنجی داده StatisticsGen و TensorFlow

StatisticsGen از اعتبارسنجی داده های TensorFlow برای تولید آمار از مجموعه داده شما استفاده گسترده ای می کند.

با استفاده از مولفه StatsGen

یک جزء StatisticsGen خط لوله معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به شکل زیر است:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

استفاده از مؤلفه StatsGen با طرحواره

برای اولین اجرای یک خط لوله، خروجی StatisticsGen برای استنتاج یک طرح استفاده خواهد شد. با این حال، در اجراهای بعدی ممکن است طرحی دستی داشته باشید که حاوی اطلاعات اضافی درباره مجموعه داده‌های شما باشد. با ارائه این طرح به StatisticsGen، TFDV می تواند آمار مفیدتری را بر اساس ویژگی های اعلام شده مجموعه داده های شما ارائه دهد.

در این تنظیمات، StatisticsGen را با یک طرح انتخاب شده که توسط ImporterNode وارد شده است، فراخوانی می کنید:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

ایجاد یک طرحواره انتخاب شده

Schema در TFX نمونه ای از پروتوی TensorFlow Metadata Schema است. این را می توان در قالب متن از ابتدا تشکیل داد. با این حال، استفاده از طرحواره استنباط شده تولید شده توسط SchemaGen به عنوان نقطه شروع آسان تر است. هنگامی که مولفه SchemaGen اجرا شد، طرحواره در زیر ریشه خط لوله در مسیر زیر قرار خواهد گرفت:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

جایی که <artifact_id> یک شناسه منحصر به فرد را برای این نسخه از طرح در MLMD نشان می دهد. سپس می‌توان این پروتوی طرحواره را تغییر داد تا اطلاعات مربوط به مجموعه داده را که نمی‌توان به طور قابل اعتماد استنباط کرد، تغییر داد، که خروجی StatisticsGen را مفیدتر و اعتبارسنجی انجام شده در مؤلفه ExampleValidator را دقیق‌تر می‌کند.

جزئیات بیشتر در مرجع StatisticsGen API موجود است.