저장된모델 준비

소개

TensorFlow 런타임에는 초기화가 지연되는 구성 요소가 있어 모델이 로드된 후 모델에 전송되는 첫 번째 요청에 대해 높은 대기 시간이 발생할 수 있습니다. 이 지연 시간은 단일 추론 요청보다 몇 배 더 높을 수 있습니다.

지연된 초기화가 요청 대기 시간에 미치는 영향을 줄이기 위해 SavedModel과 함께 추론 요청 샘플 세트를 제공하여 모델 로드 시 하위 시스템 및 구성 요소의 초기화를 트리거할 수 있습니다. 이 프로세스를 모델 "워밍업"이라고 합니다.

용법

SavedModel Warmup은 Regress, Classify, MultiInference 및 Predict에 지원됩니다. 로드 시 모델의 워밍업을 트리거하려면 SavedModel 디렉터리의 자산.extra 하위 폴더 아래에 워밍업 데이터 파일을 연결합니다.

모델 준비가 올바르게 작동하기 위한 요구 사항:

  • 준비 파일 이름: 'tf_serving_warmup_requests'
  • 파일 위치: 자산.extra/
  • 파일 형식: 각 레코드가 PredictionLogTFRecord .
  • 준비 레코드 수 <= 1000.
  • 준비 데이터는 제공 시 사용된 추론 요청을 대표해야 합니다.

워밍업 데이터 생성

준비 데이터는 두 가지 방법으로 추가할 수 있습니다.

  • 내보낸 저장된 모델에 준비 요청을 직접 입력합니다. 샘플 추론 요청 목록을 읽는 스크립트를 생성하고, 각 요청을 PredictionLog 로 변환하고(원래 다른 형식인 경우) TFRecordWriter를 사용하여 PredictionLog 항목을 YourSavedModel/assets.extra/tf_serving_warmup_requests 에 작성하면 됩니다.
  • TFX Infra Validator 옵션을 사용하여 준비와 함께 저장된 모델을 내보냅니다 . 이 옵션을 사용하면 TFX Infa 유효성 검사기가 RequestSpec 을 통해 제공된 유효성 검사 요청을 기반으로 YourSavedModel/assets.extra/tf_serving_warmup_requests 를 채웁니다.