Thành phần đường dẫn của StatsGen TFX tạo ra các số liệu thống kê về tính năng trên cả dữ liệu đào tạo và dữ liệu cung cấp, có thể được sử dụng bởi các thành phần đường dẫn khác. StatsGen sử dụng Beam để mở rộng quy mô thành các tập dữ liệu lớn.
- Tiêu thụ: các tập dữ liệu được tạo bởi thành phần đường dẫn SampleGen.
- Phát ra: Thống kê tập dữ liệu.
Xác thực dữ liệu StatsGen và TensorFlow
StatsGen sử dụng rộng rãi Xác thực dữ liệu TensorFlow để tạo số liệu thống kê từ tập dữ liệu của bạn.
Sử dụng thành phần StatsGen
Thành phần quy trình StatsGen thường rất dễ triển khai và yêu cầu ít tùy chỉnh. Mã điển hình trông như thế này:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Sử dụng thành phần StatsGen với lược đồ
Đối với lần chạy đầu tiên của quy trình, đầu ra của StatsGen sẽ được sử dụng để suy ra lược đồ. Tuy nhiên, trong những lần chạy tiếp theo, bạn có thể có một lược đồ được quản lý thủ công chứa thông tin bổ sung về tập dữ liệu của mình. Bằng cách cung cấp lược đồ này cho StatsGen, TFDV có thể cung cấp số liệu thống kê hữu ích hơn dựa trên các thuộc tính được khai báo trong tập dữ liệu của bạn.
Trong cài đặt này, bạn sẽ gọi StatsGen với một lược đồ tuyển chọn đã được ImporterNode nhập như thế này:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Tạo một lược đồ giám tuyển
Schema
trong TFX là một phiên bản của nguyên mẫu Schema
siêu dữ liệu TensorFlow. Điều này có thể được soạn ở định dạng văn bản từ đầu. Tuy nhiên, việc sử dụng lược đồ được suy luận do SchemaGen
tạo ra làm điểm bắt đầu sẽ dễ dàng hơn. Khi thành phần SchemaGen
đã được thực thi, lược đồ sẽ được đặt dưới gốc đường dẫn trong đường dẫn sau:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Trong đó <artifact_id>
đại diện cho một ID duy nhất cho phiên bản lược đồ này trong MLMD. Sau đó, nguyên mẫu lược đồ này có thể được sửa đổi để truyền đạt thông tin về tập dữ liệu không thể suy ra một cách đáng tin cậy, điều này sẽ làm cho đầu ra của StatisticsGen
trở nên hữu ích hơn và quá trình xác thực được thực hiện trong thành phần ExampleValidator
nghiêm ngặt hơn.
Thông tin chi tiết hơn có sẵn trong tài liệu tham khảo API StatsGen .