الخصوصية التفاضلية هي إطار عمل لقياس ضمانات الخصوصية التي توفرها الخوارزمية ويمكن التعبير عنها باستخدام القيم ε (إبسيلون) و δ (دلتا). من بين الاثنين ، ε أكثر أهمية وأكثر حساسية لاختيار المعلمات الفائقة. بمعنى تقريبي ، فإنهم يقصدون ما يلي:
- ε يعطي سقفاً لمقدار زيادة احتمالية ناتج معين عن طريق تضمين (أو إزالة) مثال تدريب واحد. تريد عادةً أن يكون ثابتًا صغيرًا (أقل من 10 ، أو لضمانات خصوصية أكثر صرامة ، أقل من 1). ومع ذلك ، هذا ليس سوى حد أعلى ، وقد لا تزال القيمة الكبيرة لـ epsilon تعني خصوصية عملية جيدة.
- δ يحد من احتمال حدوث تغيير تعسفي في سلوك النموذج. يمكنك عادةً ضبط هذا على رقم صغير جدًا (1e-7 أو نحو ذلك) دون المساومة على الأداة. القاعدة الأساسية هي ضبطه ليكون أقل من معكوس حجم بيانات التدريب.
العلاقة بين تدريب المعلمات الفائقة والخصوصية الناتجة من حيث (ε ، δ) معقدة ويصعب ذكرها صراحة. نهجنا الحالي الموصى به موجود في الجزء السفلي من صفحة البدء ، والذي يتضمن العثور على الحد الأقصى لمضاعف الضوضاء الذي يمكن للمرء استخدامه مع استمرار وجود فائدة معقولة ، ثم قياس مضاعف الضوضاء وعدد الميكروبات. توفر خصوصية TensorFlow أداة لحساب ( compute_dp_sgd_privacy
) لحساب (ε، δ) استنادًا إلى مضاعف الضوضاء σ وعدد خطوات التدريب المتخذة وجزء بيانات الإدخال المستهلكة في كل خطوة. يزداد مقدار الخصوصية مع مضاعف الضوضاء ويقل كلما زاد استخدام البيانات في التدريب. بشكل عام ، من أجل تحقيق إبسيلون بحد أقصى 10.0 ، نحتاج إلى ضبط مُضاعِف الضوضاء على حوالي 0.3 إلى 0.5 ، اعتمادًا على حجم مجموعة البيانات وعدد الفترات. راجع البرنامج التعليمي لخصوصية التصنيف لمعرفة النهج.
لمزيد من التفاصيل ، راجع ورقة DP-SGD الأصلية .
يمكنك استخدام compute_dp_sgd_privacy
لاكتشاف epsilon بقيمة دلتا ثابتة لطرازك [../tutorials/classification_privacy.ipynb]:
-
q
: نسبة أخذ العينات - احتمال إدراج نقطة تدريب فردية في دفعة صغيرة (حجم الدفعةbatch_size/number_of_examples
). -
noise_multiplier
: تعويم يتحكم في مقدار الضوضاء المضافة أثناء التدريب. بشكل عام ، ينتج عن المزيد من الضوضاء خصوصية أفضل وفائدة أقل. -
steps
: عدد الخطوات العالمية المتخذة.
تتوفر كتابة مفصلة للنظرية الكامنة وراء حساب إبسيلون ودلتا في الخصوصية التفاضلية لآلية عينات غاوس .