TFX boru hatları oluşturma

Pipeline sınıfını kullanma

TFX işlem hatları Pipeline sınıfı kullanılarak tanımlanır. Aşağıdaki örnek Pipeline sınıfının nasıl kullanılacağını gösterir.

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

Aşağıdakileri değiştirin:

  • pipeline-name : Bu boru hattının adı. İşlem hattı adı benzersiz olmalıdır.

    TFX, bileşen giriş yapıtları için ML Meta Verilerini sorgularken ardışık düzen adını kullanır. İşlem hattı adının yeniden kullanılması beklenmeyen davranışlara neden olabilir.

  • pipeline-root : Bu boru hattının çıktılarının kök yolu. Kök yol, orkestratörünüzün okuma ve yazma erişimine sahip olduğu bir dizinin tam yolu olmalıdır. Çalışma zamanında TFX, bileşen yapıtları için çıkış yolları oluşturmak amacıyla ardışık düzen kökünü kullanır. Bu dizin yerel olabilir veya Google Cloud Storage veya HDFS gibi desteklenen bir dağıtılmış dosya sisteminde olabilir.

  • components : Bu işlem hattının iş akışını oluşturan bileşen örneklerinin listesi.

  • enable-cache : (İsteğe bağlı.) Bu işlem hattının işlem hattı yürütmesini hızlandırmak için önbelleğe almayı kullanıp kullanmadığını gösteren bir boole değeri.

  • metadata-connection-config : (İsteğe bağlı.) ML Meta Verileri için bir bağlantı yapılandırması.

Bileşen yürütme grafiğini tanımlama

Bileşen örnekleri çıktı olarak yapay yapılar üretir ve genellikle giriş olarak yukarı akışlı bileşen örnekleri tarafından üretilen yapay yapılara bağlıdır. Bileşen örneklerinin yürütme sırası, yapı bağımlılıklarının yönlendirilmiş bir döngüsel olmayan grafiği (DAG) oluşturularak belirlenir.

Örneğin, ExampleGen standart bileşeni bir CSV dosyasından veri alabilir ve serileştirilmiş örnek kayıtların çıktısını alabilir. StatisticsGen standart bileşeni bu örnek kayıtları girdi olarak kabul eder ve veri kümesi istatistiklerini üretir. Bu örnekte, SchemaGen ExampleGen çıktısına bağlı olduğundan, StatisticsGen örneğinin ExampleGen takip etmesi gerekir.

Görev tabanlı bağımlılıklar

Ayrıca, bileşeninizin add_upstream_node ve add_downstream_node yöntemlerini kullanarak göreve dayalı bağımlılıkları da tanımlayabilirsiniz. add_upstream_node geçerli bileşenin belirtilen bileşenden sonra yürütülmesi gerektiğini belirtmenizi sağlar. add_downstream_node geçerli bileşenin belirtilen bileşenden önce yürütülmesi gerektiğini belirtmenizi sağlar.

Ardışık düzen şablonları

Bir boru hattını hızlı bir şekilde kurmanın ve tüm parçaların birbirine nasıl uyduğunu görmenin en kolay yolu bir şablon kullanmaktır. Şablonların kullanımı , Yerel Olarak TFX Ardışık Düzeni Oluşturma bölümünde ele alınmaktadır.

Önbelleğe alma

TFX ardışık düzen önbelleğe alma, ardışık düzeninizin önceki bir ardışık düzen çalıştırmasında aynı giriş kümesiyle yürütülen bileşenleri atlamasına olanak tanır. Önbelleğe alma etkinleştirilirse, işlem hattı her bileşenin, bileşenin ve giriş kümesinin imzasını bu işlem hattının önceki bileşen yürütmelerinden biriyle eşleştirmeye çalışır. Bir eşleşme varsa işlem hattı önceki çalıştırmanın bileşen çıktılarını kullanır. Eşleşme yoksa bileşen yürütülür.

İşlem hattınız deterministik olmayan bileşenler kullanıyorsa önbelleğe almayı kullanmayın. Örneğin, işlem hattınız için rastgele bir sayı oluşturmak üzere bir bileşen oluşturursanız, önbelleği etkinleştirmek bu bileşenin bir kez çalıştırılmasına neden olur. Bu örnekte sonraki çalıştırmalar, rastgele bir sayı oluşturmak yerine ilk çalıştırmanın rastgele sayısını kullanır.