حریم خصوصی دیفرانسیل چارچوبی برای اندازه گیری تضمین های حریم خصوصی ارائه شده توسط یک الگوریتم است و می تواند با استفاده از مقادیر ε (epsilon) و δ (delta) بیان شود. از بین این دو، ε اهمیت بیشتری دارد و حساسیت بیشتری نسبت به انتخاب فراپارامترها دارد. به طور کلی منظور آنها موارد زیر است:
- ε سقفی را نشان می دهد که چقدر احتمال یک خروجی خاص با گنجاندن (یا حذف) یک مثال آموزشی افزایش می یابد. شما معمولاً می خواهید ثابت کوچک باشد (کمتر از 10، یا برای تضمین حریم خصوصی دقیق تر، کمتر از 1). با این حال، این فقط یک کران بالایی است و مقدار زیاد اپسیلون ممکن است همچنان به معنای حفظ حریم خصوصی خوب باشد.
- δ احتمال یک تغییر دلخواه در رفتار مدل را محدود می کند. شما معمولاً می توانید آن را روی یک عدد بسیار کوچک (1e-7 یا بیشتر) بدون به خطر انداختن ابزارها تنظیم کنید. یک قانون کلی این است که آن را کمتر از معکوس اندازه داده آموزشی تنظیم کنید.
رابطه بین فراپارامترهای آموزشی و حریم خصوصی حاصله از نظر (ε, δ) پیچیده و دشوار است که به صراحت بیان شود. رویکرد پیشنهادی کنونی ما در پایین صفحه شروع به کار است که شامل یافتن حداکثر ضربکننده نویز است که میتوان از آن استفاده کرد در حالی که هنوز کاربرد معقولی دارد، و سپس مقیاسکننده ضریب نویز و تعداد میکروبچها را مقیاسبندی میکند. TensorFlow Privacy ابزاری به نام compute_dp_sgd_privacy
برای محاسبه (ε, δ) بر اساس ضریب نویز σ، تعداد مراحل آموزشی انجام شده و کسری از داده های ورودی مصرف شده در هر مرحله فراهم می کند. میزان حریم خصوصی با افزایش نویز σ افزایش مییابد و هر چه تعداد دفعات استفاده از دادهها در تمرین بیشتر شود، کاهش مییابد. به طور کلی، برای دستیابی به اپسیلون حداکثر 10.0، بسته به اندازه مجموعه داده و تعداد دورهها، باید ضریب نویز را روی 0.3 تا 0.5 تنظیم کنیم. برای مشاهده رویکرد، آموزش حریم خصوصی طبقه بندی را ببینید.
برای جزئیات بیشتر، مقاله اصلی DP-SGD را ببینید.
میتوانید از compute_dp_sgd_privacy
برای پیدا کردن اپسیلون با مقدار دلتای ثابت برای مدل خود استفاده کنید [../tutorials/classification_privacy.ipynb]:
-
q
: نسبت نمونه گیری - احتمال اینکه یک نقطه آموزشی فردی در یک دسته کوچک گنجانده شود (batch_size/number_of_examples
). -
noise_multiplier
: شناوری که میزان نویز اضافه شده در طول آموزش را کنترل می کند. به طور کلی، نویز بیشتر منجر به حفظ حریم خصوصی بهتر و کاربرد کمتر می شود. - Steps : تعداد
steps
های جهانی برداشته شده است.
شرح مفصلی از نظریه محاسبات اپسیلون و دلتا در Differential Privacy of the Sampled Gaussian Mechanism در دسترس است.