Что такое исправление модели TensorFlow?
Если вы выявили проблемы справедливости в своей модели машинного обучения, доступны три основных типа технических вмешательств:
- Методы предварительной обработки обучающих данных: сбор дополнительных данных, создание синтетических данных, корректировка весов примеров и частоты дискретизации различных срезов.
- Методы моделирования во время обучения: изменение самой модели путем введения или изменения целей модели и добавления ограничений.
- Методы постобучения : изменение выходных данных модели или интерпретация выходных данных для повышения производительности по метрикам.
Моделирование времени обучения
Библиотека TensorFlow Model Remediation предоставляет два метода для решения проблем предвзятости и справедливости в вашей модели: MinDiff и Counterfactual Logit Pairing (CLP) . Они описаны в таблице ниже.
Минимальная разница | CLP | |
---|---|---|
Когда следует использовать эту технику? | Чтобы модель одинаково хорошо предсказывала предпочтительную метку для всех значений чувствительного атрибута. Для достижения группового равенства возможностей . | Чтобы гарантировать, что прогноз модели не изменится между «контрфактическими парами» (где чувствительный атрибут, на который ссылается функция, отличается). Например, в классификаторе токсичности такие примеры, как «я мужчина» и «я лесбиянка», не должны иметь различный прогноз. Для достижения формы контрфактической справедливости . |
Как это работает? | Штрафует модель во время обучения за различия в распределении баллов между двумя наборами. | Штрафует модель во время обучения за различия в выводе между контрфактической парой примеров . |
Способы ввода | Функции потерь работают с выходными данными, поэтому теоретически они не зависят от входных данных и архитектуры модели. | Функции потерь работают с выходными данными, поэтому теоретически они не зависят от входных данных и архитектуры модели. |