Atualizado: junho de 2021

O Model Optimization Toolkit (MOT) do TensorFlow tem sido amplamente usado para converter/otimizar modelos do TensorFlow em modelos do TensorFlow Lite com tamanho menor, melhor desempenho e precisão aceitável para executá-los em dispositivos móveis e IoT. Agora estamos trabalhando para estender as técnicas e ferramentas MOT além do TensorFlow Lite para oferecer suporte também ao TensorFlow SavedModel.

O que se segue representa uma visão geral de alto nível do nosso roteiro. Você deve estar ciente de que este roteiro pode mudar a qualquer momento e a ordem abaixo não reflete nenhum tipo de prioridade. Recomendamos fortemente que você comente nosso roteiro e nos forneça feedback no grupo de discussão .

Quantização

TensorFlow Lite

  • Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
  • Depurador de quantização para inspecionar perdas de erros de quantização por camada.
  • Aplicando treinamento com reconhecimento de quantização em mais cobertura de modelo, por exemplo, TensorFlow Model Garden.
  • Melhorias de qualidade e desempenho para faixa dinâmica pós-treinamento. quantização.

TensorFlow

  • Quantização pós-treinamento (faixa dinâmica bf16 * int8).
  • Treinamento consciente de quantização ((bf16 * peso int8 apenas com quant falso).
  • Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
  • Depurador de quantização para inspecionar perdas de erros de quantização por camada.

Esparsidade

TensorFlow Lite

  • Suporte de execução de modelo esparso para mais modelos.
  • Autoria com reconhecimento de alvo para Sparsity.
  • Estenda o conjunto de operações esparsas com kernels x86 de alto desempenho.

TensorFlow

  • Suporte de paridade no TensorFlow.

Técnicas de compressão em cascata

  • Quantização + Compressão Tensor + Dispersão: demonstre todas as 3 técnicas trabalhando juntas.

Compressão

  • API de compressão de tensor para ajudar os desenvolvedores de algoritmos de compressão a implementar seu próprio algoritmo de compressão de modelo (por exemplo, Weight Clustering), incluindo o fornecimento de uma maneira padrão de teste/benchmark.