Actualizado: junio, 2021

Model Optimization Toolkit (MOT) de TensorFlow se ha utilizado ampliamente para convertir/optimizar modelos de TensorFlow en modelos TensorFlow Lite con un tamaño más pequeño, mejor rendimiento y una precisión aceptable para ejecutarlos en dispositivos móviles y de IoT. Ahora estamos trabajando para ampliar las técnicas y herramientas de MOT más allá de TensorFlow Lite para admitir también TensorFlow SavedModel.

Lo siguiente representa una descripción general de alto nivel de nuestra hoja de ruta. Debe tener en cuenta que esta hoja de ruta puede cambiar en cualquier momento y el orden a continuación no refleja ningún tipo de prioridad. Le recomendamos encarecidamente que comente nuestra hoja de ruta y nos proporcione sus comentarios en el grupo de debate .

cuantización

TensorFlow Lite

  • Cuantificación selectiva posterior al entrenamiento para excluir ciertas capas de la cuantificación.
  • Depurador de cuantificación para inspeccionar las pérdidas por error de cuantificación por capa.
  • Aplicar capacitación consciente de la cuantificación en más cobertura de modelos, por ejemplo, TensorFlow Model Garden.
  • Mejoras de calidad y rendimiento para el rango dinámico posterior al entrenamiento. cuantización

TensorFlow

  • Cuantificación posterior al entrenamiento (rango dinámico bf16 * int8).
  • Entrenamiento consciente de la cuantificación ((bf16 * int8 peso solo con cuantificación falsa).
  • Cuantificación selectiva posterior al entrenamiento para excluir ciertas capas de la cuantificación.
  • Depurador de cuantificación para inspeccionar las pérdidas por error de cuantificación por capa.

escasez

TensorFlow Lite

  • Soporte de ejecución de modelo disperso para más modelos.
  • Creación consciente de objetivos para Sparsity.
  • Amplíe el conjunto de operaciones dispersas con kernels x86 de alto rendimiento.

TensorFlow

  • Compatibilidad con Sparity en TensorFlow.

Técnicas de compresión en cascada

  • Cuantización + Compresión tensorial + Dispersión: demuestre las 3 técnicas trabajando juntas.

Compresión

  • API de compresión de tensor para ayudar a los desarrolladores de algoritmos de compresión a implementar su propio algoritmo de compresión de modelos (p. ej., agrupamiento de pesos), lo que incluye proporcionar una forma estándar de prueba/evaluación comparativa.