Aquecimento do modelo salvo

Introdução

O tempo de execução do TensorFlow possui componentes que são inicializados lentamente, o que pode causar alta latência para as primeiras solicitações enviadas a um modelo após ele ser carregado. Essa latência pode ser várias ordens de magnitude maior que a de uma única solicitação de inferência.

Para reduzir o impacto da inicialização lenta na latência da solicitação, é possível acionar a inicialização dos subsistemas e componentes no tempo de carregamento do modelo, fornecendo um conjunto de amostras de solicitações de inferência junto com o SavedModel. Este processo é conhecido como “aquecimento” do modelo.

Uso

O SavedModel Warmup é compatível com Regress, Classify, MultiInference e Predict. Para acionar o aquecimento do modelo no momento do carregamento, anexe um arquivo de dados de aquecimento na subpasta assets.extra do diretório SavedModel.

Requisitos para que o aquecimento do modelo funcione corretamente:

  • Nome do arquivo de aquecimento: 'tf_serving_warmup_requests'
  • Local do arquivo: assets.extra/
  • Formato de arquivo: TFRecord com cada registro como PredictionLog .
  • Número de registros de aquecimento <= 1000.
  • Os dados de aquecimento devem ser representativos das solicitações de inferência usadas no atendimento.

Geração de dados de aquecimento

Os dados de aquecimento podem ser adicionados de duas maneiras:

  • Preenchendo diretamente as solicitações de aquecimento em seu modelo salvo exportado. Isso pode ser feito criando um script lendo uma lista de solicitações de inferência de amostra, convertendo cada solicitação em PredictionLog (se estiver originalmente em um formato diferente) e usando TFRecordWriter para gravar as entradas PredictionLog em YourSavedModel/assets.extra/tf_serving_warmup_requests .
  • Usando a opção TFX Infra Validator para exportar um modelo salvo com aquecimento . Com esta opção, o TFX Infa Validator preencherá YourSavedModel/assets.extra/tf_serving_warmup_requests com base nas solicitações de validação fornecidas por meio de RequestSpec .