Atualizado: junho de 2021
O Model Optimization Toolkit (MOT) do TensorFlow tem sido amplamente usado para converter/otimizar modelos do TensorFlow em modelos do TensorFlow Lite com tamanho menor, melhor desempenho e precisão aceitável para executá-los em dispositivos móveis e IoT. Agora estamos trabalhando para estender as técnicas e ferramentas de MOT além do TensorFlow Lite para oferecer suporte também ao TensorFlow SavedModel.
O seguinte representa uma visão geral de alto nível do nosso roteiro. Você deve estar ciente de que este roteiro pode mudar a qualquer momento e a ordem abaixo não reflete nenhum tipo de prioridade. Nós encorajamos você a comentar sobre nosso roteiro e nos fornecer feedback no grupo de discussão .
Quantização
TensorFlow Lite
- Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
- Depurador de quantização para inspecionar perdas de erros de quantização por camada.
- Aplicação de treinamento com reconhecimento de quantização em mais cobertura de modelo, por exemplo, TensorFlow Model Garden.
- Melhorias de qualidade e desempenho para faixa dinâmica pós-treinamento. quantização.
TensorFlow
- Quantização pós-treinamento (faixa dinâmica bf16 * int8).
- Quantization Aware Training ((bf16 * int8 peso-somente com quant falso).
- Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
- Depurador de quantização para inspecionar perdas de erros de quantização por camada.
Espasidade
TensorFlow Lite
- Suporte de execução de modelo esparso para mais modelos.
- Criação com reconhecimento de destino para Sparsity.
- Estenda o conjunto de operações esparsas com kernels x86 de alto desempenho.
TensorFlow
- Suporte de esparidade no TensorFlow.
Técnicas de compressão em cascata
- Quantização + Compressão Tensor + Esparsidade: demonstre todas as 3 técnicas trabalhando juntas.
Compressão
- API de compactação de tensor para ajudar os desenvolvedores de algoritmos de compactação a implementar seu próprio algoritmo de compactação de modelo (por exemplo, agrupamento de peso), incluindo o fornecimento de uma maneira padrão de teste/benchmark.