Komponent potoku StatisticsGen TFX

Komponent potoku StatisticsGen TFX generuje statystyki funkcji dotyczące zarówno danych szkoleniowych, jak i udostępniających, które mogą być używane przez inne komponenty potoku. StatisticsGen używa Beam do skalowania do dużych zbiorów danych.

  • Zużywa: zbiory danych utworzone przez komponent potoku PrzykładGen.
  • Emisje: statystyki zbioru danych.

Walidacja danych StatisticsGen i TensorFlow

StatisticsGen szeroko wykorzystuje weryfikację danych TensorFlow do generowania statystyk na podstawie zbioru danych.

Korzystanie z komponentu StatsGen

Komponent potoku StatisticsGen jest zazwyczaj bardzo łatwy do wdrożenia i wymaga niewielkiego dostosowywania. Typowy kod wygląda następująco:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Używanie komponentu StatsGen ze schematem

W przypadku pierwszego uruchomienia potoku dane wyjściowe StatisticsGen zostaną użyte do wywnioskowania schematu. Jednak przy kolejnych uruchomieniach możesz mieć ręcznie wybrany schemat zawierający dodatkowe informacje o zestawie danych. Dostarczając ten schemat do StatisticsGen, TFDV może dostarczyć bardziej przydatne statystyki w oparciu o zadeklarowane właściwości Twojego zbioru danych.

W tym ustawieniu wywołasz StatisticsGen z wyselekcjonowanym schematem, który został zaimportowany przez węzeł ImporterNode w następujący sposób:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Tworzenie wyselekcjonowanego schematu

Schema w TFX jest instancją proto Schema metadanych TensorFlow. Można to napisać od podstaw w formacie tekstowym . Jednak łatwiej jest użyć wywnioskowanego schematu utworzonego przez SchemaGen jako punkt wyjścia. Po wykonaniu komponentu SchemaGen schemat zostanie umieszczony w katalogu głównym potoku w następującej ścieżce:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Gdzie <artifact_id> reprezentuje unikalny identyfikator tej wersji schematu w MLMD. Ten schemat proto można następnie zmodyfikować, aby przekazać informacje o zbiorze danych, których nie można wiarygodnie wywnioskować, co sprawi, że dane wyjściowe StatisticsGen będą bardziej przydatne, a walidacja przeprowadzana w komponencie ExampleValidator będzie bardziej rygorystyczna.

Więcej szczegółów można znaleźć w dokumentacji interfejsu API StatisticsGen .