giriiş
TensorFlow çalışma zamanı, geç başlatılan bileşenlere sahiptir ve bu, yüklendikten sonra bir modele gönderilen ilk istek/istekler için yüksek gecikmeye neden olabilir. Bu gecikme, tek bir çıkarım isteğinden birkaç kat daha yüksek olabilir.
Tembel başlatmanın istek gecikmesi üzerindeki etkisini azaltmak için, SavedModel ile birlikte örnek bir çıkarım istekleri kümesi sağlayarak alt sistemlerin ve bileşenlerin başlatılmasını model yükleme süresinde tetiklemek mümkündür. Bu işleme modelin "ısınması" adı verilir.
Kullanım
SavedModel Warmup, Regress, Classify, MultiInference ve Predict için desteklenir. Modelin yükleme sırasında ısınmasını tetiklemek için SavedModel dizininin asset.extra alt klasörü altına bir ısınma veri dosyası ekleyin.
Model ısınmasının doğru çalışması için gerekenler:
- Isınma dosyası adı: 'tf_serving_warmup_requests'
- Dosya konumu: asset.extra/
- Dosya formatı: Her kaydın bir PredictionLog olduğu TFRecord .
- Isınma kayıtlarının sayısı <= 1000.
- Isınma verileri, sunum sırasında kullanılan çıkarım isteklerini temsil etmelidir.
Isınma verisi üretimi
Isınma verileri iki şekilde eklenebilir:
- Isınma isteklerini doğrudan dışa aktarılan Kayıtlı Modelinize doldurarak. Bu, örnek çıkarım isteklerinin listesini okuyan bir komut dosyası oluşturarak, her isteği PredictionLog'a dönüştürerek (başlangıçta farklı bir biçimdeyse) ve PredictionLog girişlerini
YourSavedModel/assets.extra/tf_serving_warmup_requests
içine yazmak için TFRecordWriter'ı kullanarak yapılabilir. - Kaydedilmiş bir modeli ısınmayla birlikte dışa aktarmak için TFX Infra Validator seçeneğini kullanarak. Bu seçenekle TFX Infa Doğrulayıcı
YourSavedModel/assets.extra/tf_serving_warmup_requests
dosyasını, requestSpec aracılığıyla sağlanan doğrulama isteklerine göre dolduracaktır.