Компонент конвейераStatisticGen TFX

Компонент конвейераStatisticGen TFX генерирует статистику функций как по обучающим, так и по обслуживающим данным, которая может использоваться другими компонентами конвейера. СтатистикаGen использует Beam для масштабирования до больших наборов данных.

  • Потребляет: наборы данных, созданные компонентом конвейера SampleGen.
  • Выдает: статистику набора данных.

Проверка данныхStatisticGen и TensorFlow

СтатистикаGen широко использует проверку данных TensorFlow для генерации статистики из вашего набора данных.

Использование компонента StatsGen

Компонент конвейераStatisticGen обычно очень прост в развертывании и требует незначительной настройки. Типичный код выглядит так:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Использование компонента StatsGen со схемой

При первом запуске конвейера выходные данные СтатистикаGen будут использоваться для вывода схемы. Однако при последующих запусках у вас может быть созданная вручную схема, содержащая дополнительную информацию о вашем наборе данных. Предоставляя эту схему вStatisticGen, TFDV может предоставить более полезную статистику на основе объявленных свойств вашего набора данных.

В этом параметре вы вызоветеStatisticsGen с курируемой схемой, которая была импортирована с помощью ImporterNode следующим образом:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Создание курируемой схемы

Schema в TFX — это экземпляр прототипа Schema метаданных TensorFlow. Его можно составить в текстовом формате с нуля. Однако в качестве отправной точки проще использовать выведенную схему, созданную SchemaGen . После выполнения компонента SchemaGen схема будет расположена в корне конвейера по следующему пути:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Где <artifact_id> представляет собой уникальный идентификатор для этой версии схемы в MLMD. Затем этот прототип схемы можно изменить для передачи информации о наборе данных, которую невозможно надежно вывести, что сделает выходные данные StatisticsGen более полезными, а проверку, выполняемую в компоненте ExampleValidator , более строгой.

Более подробную информацию можно найти в справочнике по APIStatisticsGen .