Wskaźniki uczciwości to przydatne narzędzie do oceny klasyfikatorów binarnych i wieloklasowych pod kątem uczciwości. Mamy nadzieję, że ostatecznie we współpracy z wami wszystkimi rozwiniemy to narzędzie, aby ocenić jeszcze więcej czynników.
Pamiętaj, że ocena ilościowa to tylko część oceny szerszego doświadczenia użytkownika. Zacznij od przemyślenia różnych kontekstów , w których użytkownik może doświadczyć Twojego produktu. Jakim typom użytkowników ma służyć Twój produkt? Na kogo jeszcze może mieć wpływ to doświadczenie?
Rozważając wpływ sztucznej inteligencji na ludzi, należy zawsze pamiętać, że społeczeństwa ludzkie są niezwykle złożone! Zrozumienie ludzi i ich tożsamości społecznej, struktur społecznych i systemów kulturowych to odrębne, ogromne obszary otwartych badań. Dodaj do tego złożoność różnic międzykulturowych na całym świecie, a uzyskanie choćby punktu zaczepienia w zrozumieniu wpływu społecznego może być wyzwaniem. Jeśli to możliwe, zaleca się konsultację z odpowiednimi ekspertami w danej dziedzinie, do których mogą należeć socjolodzy, socjolingwiści i antropolodzy kultury, a także z członkami populacji, w których technologia będzie stosowana.
Pojedynczy model, na przykład model toksyczności, który wykorzystaliśmy w przykładowym programie Colab , może być używany w wielu różnych kontekstach. Na przykład model toksyczności wdrożony na stronie internetowej w celu filtrowania obraźliwych komentarzy to zupełnie inny przypadek użycia niż model wdrożony w przykładowym interfejsie internetowym, w którym użytkownicy mogą wpisać zdanie i zobaczyć, jaką ocenę przyzna model. W zależności od przypadku użycia i sposobu, w jaki użytkownicy postrzegają przewidywanie modelu, Twój produkt będzie miał różne ryzyko, skutki i możliwości, dlatego możesz chcieć ocenić go pod kątem różnych kwestii związanych z uczciwością.
Powyższe pytania stanowią podstawę do rozważenia, jakie względy etyczne, w tym uczciwość, warto wziąć pod uwagę podczas projektowania i rozwijania produktu opartego na uczeniu maszynowym. Pytania te motywują również do oceny jakich wskaźników i jakich grup użytkowników warto użyć tego narzędzia.
Zanim przejdziesz dalej, oto trzy zalecane zasoby na początek:
- Przewodnik People + AI dotyczący projektowania sztucznej inteligencji skoncentrowanej na człowieku: ten przewodnik jest doskonałym źródłem pytań i aspektów, o których należy pamiętać podczas projektowania produktu opartego na uczeniu maszynowym. Chociaż stworzyliśmy ten przewodnik z myślą o projektantach, wiele zasad pomoże odpowiedzieć na pytania takie jak postawione powyżej.
- Nasze wnioski dotyczące uczciwości : podczas tej prelekcji podczas Google I/O omówiono wnioski, jakie wyciągnęliśmy w związku z naszym celem, jakim jest tworzenie i projektowanie produktów sprzyjających włączeniu społecznemu.
- Kurs ML Crash: Uczciwość : Kurs ML Crash Course obejmuje 70-minutową sekcję poświęconą identyfikowaniu i ocenie problemów związanych z uczciwością
Po co więc patrzeć na poszczególne plasterki? Ocena poszczególnych wycinków jest ważna, ponieważ dobre ogólne wskaźniki mogą przesłaniać słabe wyniki w przypadku niektórych grup. Podobnie dobre wyniki w przypadku określonego wskaźnika (dokładność, AUC) nie zawsze przekładają się na akceptowalne wyniki w przypadku innych wskaźników (odsetek wyników fałszywie dodatnich, współczynnik fałszywie ujemnych), które są równie ważne w ocenie szans i szkód dla użytkowników.
W poniższych sekcjach omówiono niektóre aspekty, które należy wziąć pod uwagę.
Według jakich grup powinienem dokonać podziału?
Ogólnie rzecz biorąc, dobrą praktyką jest podzielenie na tyle grup, na ile może mieć wpływ Twój produkt, ponieważ nigdy nie wiadomo, kiedy wydajność jednej z nich może się różnić. Jeśli jednak nie masz pewności, zastanów się, którzy użytkownicy mogą mieć kontakt z Twoim produktem i jaki wpływ może to na nich mieć. Weź pod uwagę w szczególności wycinki związane z wrażliwymi cechami, takimi jak rasa, pochodzenie etniczne, płeć, narodowość, dochód, orientacja seksualna i stan niepełnosprawności.
Co się stanie, jeśli nie mam danych oznaczonych etykietami dla wycinków, które chcę zbadać?
Dobre pytanie. Wiemy, że wiele zbiorów danych nie ma podstawowych etykiet dla poszczególnych atrybutów tożsamości.
Jeśli znajdziesz się w takiej sytuacji, polecamy kilka podejść:
- Określ, czy posiadasz atrybuty, które mogą dać ci pewien wgląd w wyniki w różnych grupach. Na przykład geografia , choć nie jest równoznaczna z pochodzeniem etnicznym i rasą, może pomóc w odkryciu wszelkich rozbieżnych wzorców w wynikach
- Zidentyfikuj, czy istnieją reprezentatywne publiczne zbiory danych, które mogą dobrze odpowiadać Twojemu problemowi. W witrynie Google AI można znaleźć wiele różnorodnych i kompleksowych zbiorów danych, które obejmują między innymi Project Respect , Inclusive Images i Open Images Extended .
- W stosownych przypadkach wykorzystaj zasady lub klasyfikatory, aby oznaczyć dane obiektywnymi atrybutami na poziomie powierzchni. Można na przykład oznaczyć tekst etykietą informującą, czy w zdaniu występuje termin określający tożsamość. Pamiętaj, że klasyfikatory mają swoje własne wyzwania i jeśli nie będziesz ostrożny, mogą wprowadzić również kolejną warstwę uprzedzeń. Wyjaśnij, co tak naprawdę klasyfikuje Twój klasyfikator. Na przykład klasyfikator wieku na obrazach w rzeczywistości klasyfikuje postrzegany wiek . Dodatkowo, jeśli to możliwe, wykorzystuj atrybuty na poziomie powierzchni, które można obiektywnie zidentyfikować w danych. Na przykład niewskazane jest budowanie klasyfikatora obrazu ze względu na rasę lub pochodzenie etniczne, ponieważ nie są to cechy wizualne, które można zdefiniować na obrazie. Klasyfikator prawdopodobnie wychwyci proxy lub stereotypy. Zamiast tego zbudowanie klasyfikatora odcienia skóry może być bardziej odpowiednim sposobem etykietowania i oceny obrazu. Na koniec należy zapewnić wysoką dokładność klasyfikatorów oznaczających takie atrybuty.
- Znajdź bardziej reprezentatywne dane oznaczone etykietą
Zawsze pamiętaj, aby oceniać wiele różnych zbiorów danych.
Jeśli dane z oceny nie są odpowiednio reprezentatywne dla Twojej bazy użytkowników lub typów danych, z którymi możesz się spotkać, możesz otrzymać zwodniczo dobre wskaźniki rzetelności. Podobnie wysoka wydajność modelu w jednym zestawie danych nie gwarantuje wysokiej wydajności w innych.
Należy pamiętać, że podgrupy nie zawsze są najlepszym sposobem klasyfikacji jednostek.
Ludzie są wielowymiarowi i należą do więcej niż jednej grupy, nawet w obrębie jednego wymiaru – rozważ osobę wielorasową lub należącą do wielu grup rasowych. Ponadto, chociaż ogólne wskaźniki dla danej grupy rasowej mogą wydawać się sprawiedliwe, poszczególne interakcje, takie jak rasa i płeć łącznie, mogą wykazywać niezamierzone stronniczość. Co więcej, wiele podgrup ma niejasne granice, które są stale wyznaczane na nowo.
Kiedy przetestowałem wystarczającą liczbę wycinków i skąd mam wiedzieć, które wycinki przetestować?
Zdajemy sobie sprawę, że istnieje ogromna liczba grup lub wycinków, które mogą nadawać się do testowania, dlatego jeśli to możliwe, zalecamy podzielenie i ocenę zróżnicowanego i szerokiego zakresu wycinków, a następnie głębokie zanurzenie się w miejscu, w którym zauważysz możliwości ulepszeń. Ważne jest również, aby mieć świadomość, że nawet jeśli nie widzisz żadnych zastrzeżeń dotyczących testowanych wycinków, nie oznacza to, że Twój produkt działa dla wszystkich użytkowników, a uzyskiwanie różnorodnych opinii i testów od użytkowników jest ważne, aby mieć pewność, że stale identyfikujesz nowe możliwości.
Na początek zalecamy przemyślenie konkretnego przypadku użycia i różnych sposobów, w jakie użytkownicy mogą wchodzić w interakcję z Twoim produktem. W jaki sposób różni użytkownicy mogą mieć różne doświadczenia? Co to oznacza w przypadku plasterków, które należy ocenić? Zbieranie opinii od różnych użytkowników może również wskazać potencjalne obszary, którym należy nadać priorytet.
Jakie metryki wybrać?
Wybierając metryki do oceny dla swojego systemu, zastanów się, kto będzie doświadczał Twojego modelu, w jaki sposób będzie on doświadczany i skutki tego doświadczenia.
Na przykład, w jaki sposób Twój model zapewnia ludziom większą godność lub autonomię lub pozytywnie wpływa na ich dobrostan emocjonalny, fizyczny lub finansowy? Z drugiej strony, w jaki sposób przewidywania modelu mogą ograniczać godność lub autonomię ludzi lub negatywnie wpływać na ich dobrostan emocjonalny, fizyczny lub finansowy?
Ogólnie rzecz biorąc, zalecamy podzielenie wszystkich istniejących wskaźników wydajności w ramach dobrej praktyki. Zalecamy również ocenę danych w oparciu o wiele progów , aby zrozumieć, jak próg może wpłynąć na skuteczność różnych grup.
Ponadto, jeśli istnieje przewidywana etykieta, która jest jednakowo „dobra” lub „zła”, należy rozważyć podanie (dla każdej podgrupy) szybkości przewidywania tej etykiety. Na przykład „dobra” etykieta będzie etykietą, której przewidywanie zapewnia osobie dostęp do jakiegoś zasobu lub umożliwia jej wykonanie jakiejś akcji.
Krytyczne wskaźniki uczciwości dla klasyfikacji
Myśląc o modelu klasyfikacji, pomyśl o skutkach błędów (różnicach pomiędzy rzeczywistą etykietą „podstawowej prawdy” a etykietą z modelu). Jeśli niektóre błędy mogą stwarzać większe możliwości lub szkody dla użytkowników, pamiętaj o ocenie współczynnika występowania tych błędów w różnych grupach użytkowników. Te poziomy błędów zdefiniowano poniżej w metrykach obsługiwanych obecnie w wersji beta wskaźników uczciwości.
Mamy nadzieję, że w ciągu przyszłego roku opublikujemy studia przypadków dotyczące różnych przypadków użycia i powiązane z nimi metryki, abyśmy mogli lepiej wskazać, kiedy różne metryki mogą być najbardziej odpowiednie.
Metryki są już dostępne we wskaźnikach sprawiedliwości
Stopa dodatnia/stawka ujemna
- Definicja: Procent punktów danych sklasyfikowanych jako dodatnie lub ujemne, niezależnie od podstawowej prawdy
- Dotyczy: parytetu demograficznego i równości wyników, jeśli są równe we wszystkich podgrupach
- Kiedy stosować tę metrykę: Przypadki użycia uczciwości, w których ważne jest posiadanie równych końcowych wartości procentowych grup
Prawdziwie dodatni współczynnik / fałszywie ujemny współczynnik
- Definicja: Procent pozytywnych punktów danych (oznaczonych w podstawowej prawdzie), które zostały prawidłowo sklasyfikowane jako pozytywne, lub procent pozytywnych punktów danych, które zostały błędnie sklasyfikowane jako negatywne
- Odnosi się do: Równości szans (dla klasy pozytywnej), gdy są równe we wszystkich podgrupach
- Kiedy stosować tę metrykę: Przypadki użycia uczciwości, w których ważne jest, aby ten sam procent zakwalifikowanych kandydatów otrzymał pozytywną ocenę w każdej grupie. Jest to najczęściej zalecane w przypadku klasyfikowania pozytywnych wyników, takich jak wnioski o pożyczkę, przyjęcia do szkoły lub czy treści są przyjazne dzieciom
Prawdziwie ujemna stopa / fałszywie dodatnia stopa
- Definicja: Odsetek ujemnych punktów danych (oznaczonych w podstawowej prawdzie), które zostały prawidłowo sklasyfikowane jako ujemne, lub odsetek ujemnych punktów danych, które zostały błędnie sklasyfikowane jako pozytywne
- Odnosi się do: Równości szans (dla klasy negatywnej), gdy są równe we wszystkich podgrupach
- Kiedy stosować tę metrykę: Przypadki użycia uczciwości, w których wskaźniki błędów (lub błędne sklasyfikowanie czegoś jako pozytywne) są bardziej niepokojące niż klasyfikacja pozytywów. Dzieje się tak najczęściej w przypadkach nadużyć, gdzie pozytywne działania często prowadzą do negatywnych działań. Są one również ważne w przypadku technologii analizy twarzy, takich jak wykrywanie twarzy lub atrybuty twarzy
Dokładność i AUC
- Dotyczy: Parytetu predykcyjnego, gdy jest równy w podgrupach
- Kiedy stosować te metryki: Przypadki, w których precyzja zadania jest najważniejsza (niekoniecznie w danym kierunku), np. identyfikacja twarzy lub grupowanie twarzy
Wskaźnik fałszywych odkryć
- Definicja: Procent ujemnych punktów danych (oznaczonych w podstawie podstawowej), które zostały błędnie sklasyfikowane jako pozytywne, spośród wszystkich punktów danych sklasyfikowanych jako pozytywne. Jest to również odwrotność PPV
- Dotyczy: Parzystości predykcyjnej (znanej również jako kalibracja), gdy jest równa w podgrupach
- Kiedy stosować tę metrykę: Przypadki, w których odsetek prawidłowych pozytywnych przewidywań powinien być równy we wszystkich podgrupach
Wskaźnik fałszywych pominięć
- Definicja: Procent dodatnich punktów danych (oznaczonych w podstawie podstawowej), które zostały błędnie sklasyfikowane jako ujemne, spośród wszystkich punktów danych sklasyfikowanych jako ujemne. Jest to również odwrotność NPV
- Dotyczy: Parzystości predykcyjnej (znanej również jako kalibracja), gdy jest równa w podgrupach
- Kiedy stosować tę metrykę: Przypadki, w których odsetek prawidłowych negatywnych przewidywań powinien być równy we wszystkich podgrupach
Ogólny współczynnik odwrócenia / Współczynnik odwrócenia prognozy pozytywnej do negatywnej / Współczynnik odwrócenia prognozy negatywnej do pozytywnej
- Definicja: Prawdopodobieństwo, że klasyfikator daje inną prognozę, jeśli atrybut tożsamości w danej cesze uległ zmianie.
- Powiązane z: Uczciwością kontrfaktyczną
- Kiedy używać tej metryki: podczas ustalania, czy przewidywanie modelu ulegnie zmianie po usunięciu lub zastąpieniu wrażliwych atrybutów, do których odwołuje się przykład. Jeśli tak, rozważ użycie techniki alternatywnego parowania logitów w bibliotece Tensorflow Model Remediation.
Liczba przerzuceń / Prognoza odwróceń od dodatnich do ujemnych Liczba odwróceń / Liczba odwróceń przewidywań od ujemnych do dodatnich *
- Definicja: Ile razy klasyfikator podaje inną prognozę, jeśli termin tożsamości w danym przykładzie został zmieniony.
- Powiązane z: Uczciwością kontrfaktyczną
- Kiedy używać tej metryki: podczas ustalania, czy przewidywanie modelu ulegnie zmianie po usunięciu lub zastąpieniu wrażliwych atrybutów, do których odwołuje się przykład. Jeśli tak, rozważ użycie techniki alternatywnego parowania logitów w bibliotece Tensorflow Model Remediation.
Przykłady, które metryki wybrać
- Systematyczne niewykrywanie twarzy w aplikacji aparatu może powodować negatywne wrażenia dla niektórych grup użytkowników. W takim przypadku fałszywie negatywne wyniki w systemie wykrywania twarzy mogą prowadzić do awarii produktu, natomiast fałszywie pozytywne (wykrycie twarzy, gdy jej nie ma) mogą powodować lekką irytację dla użytkownika. Dlatego w tym przypadku użycia ważna jest ocena i minimalizacja współczynnika wyników fałszywie ujemnych.
- Nieuczciwe oznaczanie komentarzy tekstowych określonych osób jako „spam” lub „wysoka toksyczność” w systemie moderacji prowadzi do wyciszania niektórych głosów. Z jednej strony wysoki odsetek wyników fałszywie dodatnich prowadzi do nieuczciwej cenzury. Z drugiej strony wysoki odsetek wyników fałszywie ujemnych może prowadzić do rozprzestrzeniania się toksycznych treści z niektórych grup, co może zarówno zaszkodzić użytkownikowi, jak i stanowić szkodę wizerunkową tych grup. Dlatego też należy wziąć pod uwagę obydwa wskaźniki, a także metryki, które uwzględniają wszystkie rodzaje błędów, takie jak dokładność lub AUC.
Nie widzisz wskaźników, których szukasz?
Postępuj zgodnie z dokumentacją tutaj, aby dodać własne dane niestandardowe.
Uwagi końcowe
Różnica w metryce pomiędzy dwiema grupami może być oznaką, że Twój model może mieć niesprawiedliwe zniekształcenia . Wyniki należy interpretować zgodnie z przypadkiem użycia. Jednak pierwszą oznaką, że możesz niesprawiedliwie traktować jedną grupę użytkowników, jest sytuacja, gdy wskaźniki między tą grupą użytkowników a całością znacząco się różnią. Przyglądając się tym różnicom, pamiętaj o uwzględnieniu przedziałów ufności. Jeśli w danym wycinku jest zbyt mało próbek, różnica między metrykami może nie być dokładna.
Osiągnięcie równości między grupami pod względem wskaźników sprawiedliwości nie oznacza, że model jest sprawiedliwy. Systemy są bardzo złożone i osiągnięcie równości w zakresie jednego (lub nawet wszystkich) dostarczonych wskaźników nie może zagwarantować uczciwości.
Oceny rzetelności należy przeprowadzać przez cały proces programowania i po premierze (nie dzień przed premierą). Podobnie jak ulepszanie produktu jest procesem ciągłym i podlega dostosowaniom w oparciu o opinie użytkowników i rynku, tak uczynienie produktu uczciwym i sprawiedliwym wymaga ciągłej uwagi. W miarę jak zmieniają się różne aspekty modelu, takie jak dane szkoleniowe, dane wejściowe z innych modeli lub sam projekt, wskaźniki uczciwości prawdopodobnie ulegną zmianie. Jednorazowe „oczyszczenie poprzeczki” nie wystarczy, aby zapewnić, że wszystkie elementy współdziałające z upływem czasu pozostaną nienaruszone.
W przypadku rzadkich, złośliwych przykładów należy przeprowadzić testy kontradyktoryjne. Oceny rzetelności nie mają na celu zastąpienia testów kontradyktoryjnych. Dodatkowa obrona przed rzadkimi, ukierunkowanymi przykładami jest kluczowa, ponieważ przykłady te prawdopodobnie nie pojawią się w danych szkoleniowych ani ewaluacyjnych.