Aktualizacja: czerwiec 2021 r
Zestaw narzędzi do optymalizacji modelu TensorFlow (MOT) był szeroko stosowany do konwersji/optymalizacji modeli TensorFlow na modele TensorFlow Lite o mniejszym rozmiarze, lepszej wydajności i akceptowalnej dokładności, aby można je było uruchamiać na urządzeniach mobilnych i urządzeniach IoT. Obecnie pracujemy nad rozszerzeniem technik i narzędzi przeglądu technicznego poza TensorFlow Lite, aby obsługiwały również TensorFlow SavedModel.
Poniżej przedstawiono ogólny przegląd naszego planu działania. Należy mieć świadomość, że niniejszy plan działania może ulec zmianie w dowolnym momencie, a poniższa kolejność nie odzwierciedla żadnego rodzaju priorytetów. Gorąco zachęcamy do komentowania naszego planu działania i przekazywania nam opinii w grupie dyskusyjnej .
Kwantyzacja
TensorFlow Lite
- Selektywna kwantyzacja potreningowa w celu wykluczenia niektórych warstw z kwantyzacji.
- Debuger kwantyzacji do sprawdzania strat błędów kwantyzacji na warstwę.
- Stosowanie szkolenia uwzględniającego kwantyzację w przypadku większego pokrycia modelu, np. TensorFlow Model Garden.
- Poprawa jakości i wydajności w zakresie dynamicznym po treningu. kwantyzacja.
TensorFlow
- Kwantyzacja po szkoleniu (zakres dynamiki bf16 * int8).
- Trening uwzględniający kwantyzację ((bf16 * int8 – tylko waga z fałszywą ilością).
- Selektywna kwantyzacja potreningowa w celu wykluczenia niektórych warstw z kwantyzacji.
- Debuger kwantyzacji do sprawdzania strat błędów kwantyzacji na warstwę.
Rzadkość
TensorFlow Lite
- Obsługa rzadkiego wykonywania modelu dla większej liczby modeli.
- Tworzenie świadomych celów dla Sparsity.
- Rozszerz zestaw rzadkich operacji o wydajne jądra x86.
TensorFlow
- Obsługa sparity w TensorFlow.
Techniki kompresji kaskadowej
- Kwantyzacja + Kompresja Tensora + Rzadkość: zademonstruj współpracę wszystkich 3 technik.
Kompresja
- Interfejs API kompresji Tensor, który pomaga twórcom algorytmów kompresji we wdrażaniu własnego algorytmu kompresji modelu (np. klastrowanie wag), w tym zapewnia standardowy sposób testowania/benchmarku.