Mise à jour : juin 2021

La boîte à outils d'optimisation de modèle (MOT) de TensorFlow a été largement utilisée pour convertir/optimiser des modèles TensorFlow en modèles TensorFlow Lite avec une taille plus petite, de meilleures performances et une précision acceptable pour les exécuter sur des appareils mobiles et IoT. Nous travaillons actuellement à étendre les techniques et les outils MOT au-delà de TensorFlow Lite pour prendre également en charge TensorFlow SavedModel.

Ce qui suit représente un aperçu de haut niveau de notre feuille de route. Vous devez être conscient que cette feuille de route peut changer à tout moment et que l'ordre ci-dessous ne reflète aucun type de priorité. Nous vous encourageons fortement à commenter notre feuille de route et à nous faire part de vos commentaires dans le groupe de discussion .

Quantification

TensorFlow Lite

  • Quantification sélective post-formation pour exclure certaines couches de la quantification.
  • Débogueur de quantification pour inspecter les pertes d’erreurs de quantification par couche.
  • Appliquer une formation prenant en compte la quantification sur une plus grande couverture de modèle, par exemple TensorFlow Model Garden.
  • Améliorations de la qualité et des performances pour la plage dynamique post-entraînement. quantification.

TensorFlow

  • Quantification post-formation (plage dynamique bf16 * int8).
  • Formation prenant en compte la quantification ((bf16 * int8 poids uniquement avec faux quant).
  • Quantification sélective post-formation pour exclure certaines couches de la quantification.
  • Débogueur de quantification pour inspecter les pertes d’erreurs de quantification par couche.

Rareté

TensorFlow Lite

  • Prise en charge de l’exécution de modèles clairsemés pour plus de modèles.
  • Création ciblée pour Sparsity.
  • Étendez l'ensemble d'opérations clairsemé avec des noyaux x86 performants.

TensorFlow

  • Prise en charge de la parité dans TensorFlow.

Techniques de compression en cascade

  • Quantification + Tensor Compression + Sparsity : démontrez que les 3 techniques fonctionnent ensemble.

Compression

  • API de compression tenseur pour aider les développeurs d'algorithmes de compression à mettre en œuvre leur propre algorithme de compression de modèle (par exemple, Weight Clustering), notamment en fournissant un moyen standard de test/référence.