Pipeline
sınıfını kullanma
TFX işlem hatları Pipeline
sınıfı kullanılarak tanımlanır. Aşağıdaki örnek Pipeline
sınıfının nasıl kullanılacağını gösterir.
pipeline.Pipeline( pipeline_name=pipeline-name, pipeline_root=pipeline-root, components=components, enable_cache=enable-cache, metadata_connection_config=metadata-connection-config, )
Aşağıdakileri değiştirin:
pipeline-name : Bu boru hattının adı. İşlem hattı adı benzersiz olmalıdır.
TFX, bileşen giriş yapıtları için ML Meta Verilerini sorgularken işlem hattı adını kullanır. Bir işlem hattı adının yeniden kullanılması beklenmeyen davranışlara neden olabilir.
pipeline-root : Bu boru hattının çıktılarının kök yolu. Kök yol, orkestratörünüzün okuma ve yazma erişimine sahip olduğu bir dizinin tam yolu olmalıdır. Çalışma zamanında TFX, bileşen yapıtları için çıkış yolları oluşturmak amacıyla ardışık düzen kökünü kullanır. Bu dizin yerel olabilir veya Google Cloud Storage veya HDFS gibi desteklenen bir dağıtılmış dosya sisteminde olabilir.
components : Bu işlem hattının iş akışını oluşturan bileşen örneklerinin listesi.
enable-cache : (İsteğe bağlı.) Bu işlem hattının işlem hattı yürütmesini hızlandırmak için önbelleğe almayı kullanıp kullanmadığını gösteren bir boole değeri.
metadata-connection-config : (İsteğe bağlı.) ML Meta Verileri için bir bağlantı yapılandırması.
Bileşen yürütme grafiğini tanımlama
Bileşen örnekleri çıktı olarak yapay yapılar üretir ve genellikle giriş olarak yukarı akışlı bileşen örnekleri tarafından üretilen yapay yapılara bağlıdır. Bileşen örneklerinin yürütme sırası, yapı bağımlılıklarının yönlendirilmiş bir döngüsel olmayan grafiği (DAG) oluşturularak belirlenir.
Örneğin, ExampleGen
standart bileşeni bir CSV dosyasından veri alabilir ve serileştirilmiş örnek kayıtların çıktısını alabilir. StatisticsGen
standart bileşeni bu örnek kayıtları girdi olarak kabul eder ve veri kümesi istatistiklerini üretir. Bu örnekte, SchemaGen
ExampleGen
çıktısına bağlı olduğundan, StatisticsGen
örneğinin ExampleGen
takip etmesi gerekir.
Görev tabanlı bağımlılıklar
Ayrıca bileşeninizin add_upstream_node
ve add_downstream_node
yöntemlerini kullanarak göreve dayalı bağımlılıkları da tanımlayabilirsiniz. add_upstream_node
geçerli bileşenin belirtilen bileşenden sonra yürütülmesi gerektiğini belirtmenizi sağlar. add_downstream_node
geçerli bileşenin belirtilen bileşenden önce yürütülmesi gerektiğini belirtmenizi sağlar.
Ardışık düzen şablonları
Bir boru hattını hızlı bir şekilde kurmanın ve tüm parçaların birbirine nasıl uyduğunu görmenin en kolay yolu bir şablon kullanmaktır. Şablonların kullanımı , Yerel Olarak TFX Ardışık Düzeni Oluşturma bölümünde ele alınmaktadır.
Önbelleğe alma
TFX ardışık düzen önbelleğe alma, ardışık düzeninizin önceki bir ardışık düzen çalıştırmasında aynı giriş kümesiyle yürütülen bileşenleri atlamasına olanak tanır. Önbelleğe alma etkinleştirilirse, işlem hattı her bileşenin, bileşenin ve giriş kümesinin imzasını bu işlem hattının önceki bileşen yürütmelerinden biriyle eşleştirmeye çalışır. Bir eşleşme varsa işlem hattı önceki çalıştırmanın bileşen çıktılarını kullanır. Eşleşme yoksa bileşen yürütülür.
İşlem hattınız deterministik olmayan bileşenler kullanıyorsa önbelleğe almayı kullanmayın. Örneğin, işlem hattınız için rastgele bir sayı oluşturmak üzere bir bileşen oluşturursanız, önbelleği etkinleştirmek bu bileşenin bir kez çalıştırılmasına neden olur. Bu örnekte sonraki çalıştırmalar, rastgele bir sayı oluşturmak yerine ilk çalıştırmanın rastgele sayısını kullanır.