MinDiff는 두 분포를 균등화하려는 모델 수정 기술입니다. 실제로 분포 차이에 불이익을 주어 데이터의 여러 조각에서 오류율의 균형을 맞추는 데 사용할 수 있습니다.
일반적으로 민감한 클래스에 속하는 데이터 조각과 성능이 더 좋은 조각 사이의 FPR(위양성률) 또는 FNR(위음성률)의 차이를 최소화하는 등 그룹 공정성을 보장하려고 할 때 MinDiff를 적용합니다. 공정성 지표에 대한 심층적인 논의를 위해서는 이 주제에 관한 문헌을 검토하십시오. 1 2 3
MinDiff는 어떻게 작동하나요?
데이터 세트의 두 가지 예 세트가 주어지면 MinDiff는 훈련 중에 두 세트 간의 점수 분포 차이에 대해 모델에 페널티를 적용합니다. 두 세트가 예측 점수를 기반으로 덜 구별될수록 적용되는 페널티는 더 작아집니다.
페널티는 모델이 훈련에 사용하는 손실에 구성 요소를 추가하여 적용됩니다. 이는 모델 예측의 분포 차이를 측정한 것으로 생각할 수 있습니다. 모델이 훈련되면서 아래 그래프에 표시된 것처럼 분포를 더 가깝게 만들어 페널티를 최소화하려고 합니다.
MinDiff를 적용하면 원래 작업의 성능과 관련하여 장단점이 있을 수 있습니다. MinDiff는 제품 요구 사항 이상으로 성능을 저하시키지 않으면서 효과적일 수 있지만 MinDiff의 성능과 효율성 사이의 균형을 맞추는 결정은 제품 소유자가 의도적으로 내려야 합니다. MinDiff 구현 방법을 보여주는 예는 모델 수정 사례 연구 노트북을 참조하세요.
자원
텍스트 분류 모델에 MinDiff를 적용하는 방법에 대한 튜토리얼은 MinDiff Keras 노트북을 참조하세요.
TensorFlow 블로그의 MinDiff에 대한 블로그 게시물은 MinDiff를 적용하여 모델 개선 블로그 게시물을 참조하세요.
전체 모델 교정 라이브러리는 모델 교정 Github 저장소를 참조하세요.
Dwork, C., Hardt, M., Pitassi, T., Reingold, O., Zemel, R. (2011). 인식을 통한 공정성. ↩
Hardt, M., Price, E., Srebro, N. (2016). 지도 학습의 기회 평등. ↩
Chouldechova, A. (2016). 서로 다른 영향을 미치는 공정한 예측: 재범 예측 도구의 편향에 대한 연구. ↩