Co to jest naprawa modelu TensorFlow?
Jeśli zidentyfikowałeś problemy ze sprawiedliwością w swoim modelu uczenia maszynowego, dostępne są trzy główne typy interwencji technicznych:
- Techniki wstępnego przetwarzania danych szkoleniowych: zbieranie większej ilości danych, generowanie danych syntetycznych, dostosowywanie wag przykładów i częstotliwości próbkowania różnych wycinków.
- Techniki modelowania w czasie szkolenia: zmiana samego modelu poprzez wprowadzenie lub zmianę celów modelu i dodanie ograniczeń.
- Techniki poszkoleniowe: Modyfikowanie danych wyjściowych modelu lub interpretacja danych wyjściowych w celu poprawy wydajności we wszystkich metrykach.
Modelowanie czasu szkolenia
Biblioteka TensorFlow Model Remediation zapewnia dwie techniki rozwiązywania problemów z odchyleniami i sprawiedliwością w modelu, MinDiff i Counterfactual Logit Pairing (CLP) . Zostały one opisane w poniższej tabeli.
MinDiff | CLP | |
---|---|---|
Kiedy powinieneś użyć tej techniki? | Aby upewnić się, że model równie dobrze przewiduje preferowaną etykietę dla wszystkich wartości wrażliwego atrybutu. Aby osiągnąć grupową równość szans . | Aby upewnić się, że prognoza modelu nie zmienia się między „parami kontrfaktycznymi” (gdzie wrażliwy atrybut, do którego odwołuje się funkcja, jest inny). Na przykład w klasyfikatorze toksyczności przykłady takie jak „Jestem mężczyzną” i „Jestem lesbijką” nie powinny mieć innej prognozy. Aby osiągnąć formę uczciwości kontrfaktycznej . |
Jak to działa? | Karanie modelu podczas uczenia za różnice w rozkładzie wyników między dwoma zestawami. | Kara modelu podczas uczenia dla różnic wyjściowych między parami kontrfaktycznych przykładów . |
Modalności wejściowe | Funkcje strat działają na wyjściu, więc teoretycznie są niezależne od architektury wejściowej i modelu. | Funkcje strat działają na wyjściu, więc teoretycznie są niezależne od architektury wejściowej i modelu. |