تقليم الأوزان غير الهامة

يقدم هذا المستند نظرة عامة على تقليم النموذج لمساعدتك في تحديد مدى ملاءمته لحالة الاستخدام الخاصة بك.

ملخص

يؤدي تقليم الوزن على أساس الحجم إلى التخلص تدريجيًا من أوزان النماذج أثناء عملية التدريب لتحقيق تناثر النموذج. تعد النماذج المتفرقة أسهل في الضغط، ويمكننا تخطي الأصفار أثناء الاستدلال لتحسين زمن الاستجابة.

توفر هذه التقنية تحسينات عبر ضغط النموذج. في المستقبل، سيوفر دعم إطار العمل لهذه التقنية تحسينات في زمن الوصول. لقد شهدنا ما يصل إلى 6 أضعاف التحسينات في ضغط النموذج مع الحد الأدنى من فقدان الدقة.

ويجري تقييم هذه التقنية في تطبيقات الكلام المختلفة، مثل التعرف على الكلام وتحويل النص إلى كلام، وتم تجربتها عبر نماذج الرؤية والترجمة المختلفة.

مصفوفة توافق API

يمكن للمستخدمين تطبيق التقليم باستخدام واجهات برمجة التطبيقات التالية:

  • بناء النموذج: keras مع النماذج التسلسلية والوظيفية فقط
  • إصدارات TensorFlow: TF 1.x للإصدارات 1.14+ و2.x.
    • لا يتم دعم tf.compat.v1 مع حزمة TF 2.X و tf.compat.v2 مع حزمة TF 1.X.
  • وضع تنفيذ TensorFlow: كلا من الرسم البياني والشغف
  • التدريب الموزع: tf.distribute مع تنفيذ الرسم البياني فقط

تتضمن خريطة الطريق الخاصة بنا إضافة الدعم في المجالات التالية:

نتائج

تصنيف الصور

نموذج دقة أعلى 1 غير متفرقة دقة متفرقة عشوائية متفرقة عشوائية دقة متناثرة منظمة تناثر منظم
التأسيسV3 78.1% 78.0% 50% 75.8% 2 في 4
76.1% 75%
74.6% 87.5%
موبايل نت V1 224 71.04% 70.84% 50% 67.35% 2 في 4
موبايل نت V2 224 71.77% 69.64% 50% 66.75% 2 في 4

تم اختبار النماذج على Imagenet.

ترجمة

نموذج غير متفرق BLEU أزرق متفرق متناثرة
جي إن إم تي إن-دي 26.77 26.86 80%
26.52 85%
26.19 90%
جي إن إم تي دي إن 29.47 29.50 80%
29.24 85%
28.81 90%

تستخدم النماذج مجموعة بيانات WMT16 الألمانية والإنجليزية مع news-test2013 كمجموعة التطوير وnews-test2015 كمجموعة اختبار.

نموذج اكتشاف الكلمات الرئيسية

DS-CNN-L هو نموذج لاكتشاف الكلمات الرئيسية تم إنشاؤه لأجهزة الحافة. يمكن العثور عليه في مستودع أمثلة برنامج ARM.

نموذج دقة غير متفرقة دقة متناثرة منظمة (نمط 2 × 4) دقة متفرقة عشوائية (الهدف المتفرق 50٪)
دي إس-سي إن إن-إل 95.23 94.33 94.84

أمثلة

بالإضافة إلى البرنامج التعليمي Prune with Keras ، راجع الأمثلة التالية:

  • تدريب نموذج CNN على مهمة تصنيف الأرقام المكتوبة بخط اليد MNIST مع التقليم: الكود
  • قم بتدريب LSTM على مهمة تصنيف المشاعر IMDB باستخدام كود التقليم

للحصول على الخلفية، راجع التقليم أو عدم التقليم: استكشاف فعالية التقليم لضغط النموذج [ الورق ].