Aggiornato: giugno 2021
Il Model Optimization Toolkit (MOT) di TensorFlow è stato ampiamente utilizzato per convertire/ottimizzare i modelli TensorFlow in modelli TensorFlow Lite con dimensioni più piccole, prestazioni migliori e precisione accettabile per eseguirli su dispositivi mobili e IoT. Stiamo ora lavorando per estendere le tecniche e gli strumenti MOT oltre TensorFlow Lite per supportare anche TensorFlow SavedModel.
Quanto segue rappresenta una panoramica di alto livello della nostra tabella di marcia. Dovresti essere consapevole che questa tabella di marcia può cambiare in qualsiasi momento e l'ordine riportato di seguito non riflette alcun tipo di priorità. Ti invitiamo vivamente a commentare la nostra tabella di marcia e a fornirci feedback nel gruppo di discussione .
Quantizzazione
TensorFlow Lite
- Quantizzazione selettiva post-allenamento per escludere determinati livelli dalla quantizzazione.
- Debugger di quantizzazione per controllare le perdite di errori di quantizzazione per strato.
- Applicazione di formazione basata sulla quantizzazione su una maggiore copertura del modello, ad esempio TensorFlow Model Garden.
- Miglioramenti della qualità e delle prestazioni per la gamma dinamica post-allenamento. quantizzazione.
TensorFlow
- Quantizzazione post allenamento (gamma dinamica bf16 * int8).
- Formazione consapevole sulla quantizzazione ((bf16 * int8 solo peso con quant falso).
- Quantizzazione selettiva post-allenamento per escludere determinati livelli dalla quantizzazione.
- Debugger di quantizzazione per controllare le perdite di errori di quantizzazione per strato.
Sparsità
TensorFlow Lite
- Supporto di esecuzione di modelli sparsi per più modelli.
- Creazione consapevole del target per Sparsity.
- Estendi il set operativo sparse con kernel x86 performanti.
TensorFlow
- Supporto della parità in TensorFlow.
Tecniche di compressione a cascata
- Quantizzazione + Compressione tensore + Sparsità: dimostra che tutte e 3 le tecniche lavorano insieme.
Compressione
- API di compressione tensore per aiutare gli sviluppatori di algoritmi di compressione a implementare il proprio algoritmo di compressione del modello (ad esempio Weight Clustering), inclusa la fornitura di un modo standard per testare/benchmark.