Komponent potoku StatisticsGen TFX generuje statystyki funkcji dotyczące zarówno danych szkoleniowych, jak i udostępniających, które mogą być używane przez inne komponenty potoku. StatisticsGen używa Beam do skalowania do dużych zbiorów danych.
- Zużywa: zbiory danych utworzone przez komponent potoku PrzykładGen.
- Emisje: statystyki zbioru danych.
Walidacja danych StatisticsGen i TensorFlow
StatisticsGen szeroko wykorzystuje weryfikację danych TensorFlow do generowania statystyk na podstawie zbioru danych.
Korzystanie z komponentu StatsGen
Komponent potoku StatisticsGen jest zazwyczaj bardzo łatwy do wdrożenia i wymaga niewielkiego dostosowywania. Typowy kod wygląda następująco:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Używanie komponentu StatsGen ze schematem
W przypadku pierwszego uruchomienia potoku dane wyjściowe StatisticsGen zostaną użyte do wywnioskowania schematu. Jednak przy kolejnych uruchomieniach możesz mieć ręcznie wybrany schemat zawierający dodatkowe informacje o zestawie danych. Dostarczając ten schemat do StatisticsGen, TFDV może dostarczyć bardziej przydatne statystyki w oparciu o zadeklarowane właściwości Twojego zbioru danych.
W tym ustawieniu wywołasz StatisticsGen z wyselekcjonowanym schematem, który został zaimportowany przez węzeł ImporterNode w następujący sposób:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Tworzenie wyselekcjonowanego schematu
Schema
w TFX jest instancją proto Schema
metadanych TensorFlow. Można to napisać od podstaw w formacie tekstowym . Jednak łatwiej jest użyć wywnioskowanego schematu utworzonego przez SchemaGen
jako punkt wyjścia. Po wykonaniu komponentu SchemaGen
schemat zostanie umieszczony w katalogu głównym potoku w następującej ścieżce:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Gdzie <artifact_id>
reprezentuje unikalny identyfikator tej wersji schematu w MLMD. Ten schemat proto można następnie zmodyfikować, aby przekazać informacje o zbiorze danych, których nie można wiarygodnie wywnioskować, co sprawi, że dane wyjściowe StatisticsGen
będą bardziej przydatne, a walidacja przeprowadzana w komponencie ExampleValidator
będzie bardziej rygorystyczna.
Więcej szczegółów można znaleźć w dokumentacji interfejsu API StatisticsGen .