차등 프라이버시는 알고리즘이 제공하는 프라이버시 보장을 측정하기 위한 프레임워크로 ε(엡실론) 및 δ(델타) 값을 사용하여 표현할 수 있습니다. 둘 중 ε은 초매개변수 선택에 더 중요하고 더 민감합니다. 대략적으로 말하면 다음을 의미합니다.
- ε은 단일 훈련 예제를 포함(또는 제거)함으로써 특정 출력의 확률이 얼마나 증가할 수 있는지에 대한 상한선을 제공합니다. 일반적으로 작은 상수(10보다 작거나 더 엄격한 개인 정보 보호를 위해 1보다 작음)를 원합니다. 그러나 이것은 상한선에 불과하며 엡실론의 큰 값은 여전히 좋은 실용적인 프라이버시를 의미할 수 있습니다.
- δ는 모델 동작의 임의 변경 확률을 제한합니다. 일반적으로 유틸리티를 손상시키지 않고 매우 작은 숫자(1e-7 정도)로 설정할 수 있습니다. 경험적 규칙은 훈련 데이터 크기의 역수보다 작게 설정하는 것입니다.
훈련 하이퍼파라미터와 (ε, δ) 측면에서 개인 정보 보호 결과 간의 관계는 복잡하고 명시적으로 설명하기 어렵습니다. 현재 권장되는 접근 방식은 시작하기 페이지 하단에 있습니다. 여기에는 합리적인 유틸리티를 유지하면서 사용할 수 있는 최대 노이즈 배율을 찾은 다음 노이즈 배율과 마이크로배치 수를 조정하는 것이 포함됩니다. TensorFlow Privacy는 노이즈 승수 σ, 수행한 훈련 단계 수 및 각 단계에서 소비된 입력 데이터의 비율을 기반으로 (ε, δ)를 계산하는 도구인 compute_dp_sgd_privacy
를 제공합니다. 프라이버시의 양은 잡음 승수 σ에 따라 증가하고 데이터가 훈련에 사용되는 횟수가 많을수록 감소합니다. 일반적으로 최대 10.0의 엡실론을 달성하려면 데이터 세트 크기와 에포크 수에 따라 노이즈 승수를 약 0.3~0.5로 설정해야 합니다. 접근 방식을 보려면 분류 개인 정보 보호 자습서 를 참조하세요.
자세한 내용 은 원본 DP-SGD 문서 를 참조하십시오.
compute_dp_sgd_privacy
를 사용하여 모델 [../tutorials/classification_privacy.ipynb]에 대해 고정 델타 값이 지정된 엡실론을 찾을 수 있습니다.
-
q
: 샘플링 비율 - 개별 훈련 포인트가 미니 배치(batch_size/number_of_examples
)에 포함될 확률. -
noise_multiplier
: 훈련 중에 추가되는 노이즈의 양을 제어하는 부동 소수점. 일반적으로 소음이 많을수록 프라이버시가 향상되고 유틸리티가 낮아집니다. -
steps
: 수행한 전역 단계 수입니다.
엡실론과 델타 계산의 이면에 있는 이론에 대한 자세한 내용은 Differential Privacy of the Sampled Gaussian Mechanism 에서 볼 수 있습니다.