TensorFlow Model Optimization

Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

Atualizado: junho de 2021

O Model Optimization Toolkit (MOT) do TensorFlow tem sido amplamente usado para converter/otimizar modelos do TensorFlow em modelos do TensorFlow Lite com tamanho menor, melhor desempenho e precisão aceitável para executá-los em dispositivos móveis e IoT. Agora estamos trabalhando para estender as técnicas e ferramentas de MOT além do TensorFlow Lite para oferecer suporte também ao TensorFlow SavedModel.

O seguinte representa uma visão geral de alto nível do nosso roteiro. Você deve estar ciente de que este roteiro pode mudar a qualquer momento e a ordem abaixo não reflete nenhum tipo de prioridade. Nós encorajamos você a comentar sobre nosso roteiro e nos fornecer feedback no grupo de discussão .

Quantização

TensorFlow Lite

Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
Depurador de quantização para inspecionar perdas de erros de quantização por camada.
Aplicação de treinamento com reconhecimento de quantização em mais cobertura de modelo, por exemplo, TensorFlow Model Garden.
Melhorias de qualidade e desempenho para faixa dinâmica pós-treinamento. quantização.

TensorFlow

Quantização pós-treinamento (faixa dinâmica bf16 * int8).
Quantization Aware Training ((bf16 * int8 peso-somente com quant falso).
Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
Depurador de quantização para inspecionar perdas de erros de quantização por camada.

Espasidade

TensorFlow Lite

Suporte de execução de modelo esparso para mais modelos.
Criação com reconhecimento de destino para Sparsity.
Estenda o conjunto de operações esparsas com kernels x86 de alto desempenho.

TensorFlow

Suporte de esparidade no TensorFlow.

Técnicas de compressão em cascata

Quantização + Compressão Tensor + Esparsidade: demonstre todas as 3 técnicas trabalhando juntas.

Compressão

API de compactação de tensor para ajudar os desenvolvedores de algoritmos de compactação a implementar seu próprio algoritmo de compactação de modelo (por exemplo, agrupamento de peso), incluindo o fornecimento de uma maneira padrão de teste/benchmark.