Fairness Indicators è uno strumento utile per valutare l'equità dei classificatori binari e multiclasse . Speriamo infine di espandere questo strumento, in collaborazione con tutti voi, per valutare ancora più considerazioni.
Tieni presente che la valutazione quantitativa è solo una parte della valutazione di un'esperienza utente più ampia. Inizia pensando ai diversi contesti attraverso i quali un utente può sperimentare il tuo prodotto. Quali sono i diversi tipi di utenti che il tuo prodotto dovrebbe servire? Chi altro potrebbe essere influenzato dall’esperienza?
Quando si considera l’impatto dell’intelligenza artificiale sulle persone, è importante ricordare sempre che le società umane sono estremamente complesse! Comprendere le persone e le loro identità sociali, strutture sociali e sistemi culturali sono ciascuno di per sé vasti campi di ricerca aperta. Se si aggiungono le complessità delle differenze interculturali in tutto il mondo, riuscire a comprendere l’impatto sociale può essere una sfida. Quando possibile, si consiglia di consultare gli esperti del settore appropriato, che possono includere scienziati sociali, sociolinguisti e antropologi culturali, nonché i membri delle popolazioni su cui verrà utilizzata la tecnologia.
Un singolo modello, ad esempio, il modello di tossicità che sfruttiamo nell'esempio colab , può essere utilizzato in molti contesti diversi. Un modello di tossicità distribuito su un sito Web per filtrare i commenti offensivi, ad esempio, è un caso d'uso molto diverso rispetto al modello distribuito in un'interfaccia utente Web di esempio in cui gli utenti possono digitare una frase e vedere quale punteggio fornisce il modello. A seconda del caso d'uso e del modo in cui gli utenti sperimentano la previsione del modello, il tuo prodotto presenterà rischi, effetti e opportunità diversi e potresti voler valutare diversi problemi di equità.
Le domande di cui sopra costituiscono il fondamento di quali considerazioni etiche, inclusa l'equità, potresti voler prendere in considerazione quando progetti e sviluppi il tuo prodotto basato sul machine learning. Queste domande motivano anche quali metriche e quali gruppi di utenti dovresti utilizzare lo strumento per valutare.
Prima di approfondire ulteriormente, ecco tre risorse consigliate per iniziare:
- La guida People + AI per una progettazione AI centrata sull'uomo: questa guida è un'ottima risorsa per le domande e gli aspetti da tenere a mente quando si progetta un prodotto basato sull'apprendimento automatico. Sebbene abbiamo creato questa guida pensando ai designer, molti dei principi aiuteranno a rispondere a domande come quella posta sopra.
- Le nostre lezioni di equità apprese : questo discorso al Google I/O discute le lezioni che abbiamo imparato nel nostro obiettivo di creare e progettare prodotti inclusivi.
- Corso accelerato di ML: Equità : il corso accelerato di ML prevede una sezione di 70 minuti dedicata all'identificazione e alla valutazione dei problemi di equità
Quindi, perché guardare le singole sezioni? La valutazione sulle singole sezioni è importante poiché parametri complessivi efficaci possono nascondere le scarse prestazioni di determinati gruppi. Allo stesso modo, un buon rendimento per una determinata metrica (precisione, AUC) non si traduce sempre in prestazioni accettabili per altre metriche (tasso di falsi positivi, tasso di falsi negativi) che sono ugualmente importanti nella valutazione di opportunità e danni per gli utenti.
Le sezioni seguenti illustreranno alcuni degli aspetti da considerare.
In base a quali gruppi dovrei suddividerli?
In generale, una buona pratica è quella di suddividere il gruppo in tutti i gruppi che potrebbero essere interessati dal prodotto, poiché non si sa mai quando le prestazioni potrebbero differire per uno degli altri. Tuttavia, se non sei sicuro, pensa ai diversi utenti che potrebbero interagire con il tuo prodotto e al modo in cui potrebbero esserne influenzati. Consideriamo, in particolare, le sezioni relative a caratteristiche sensibili quali razza, etnia, genere, nazionalità, reddito, orientamento sessuale e stato di disabilità.
Cosa succede se non ho dati etichettati per le sezioni che desidero esaminare?
Buona domanda. Sappiamo che molti set di dati non hanno etichette attendibili per gli attributi di identità individuali.
Se ti trovi in questa posizione, ti consigliamo alcuni approcci:
- Identifica se ci sono attributi che potrebbero darti un'idea delle prestazioni tra i gruppi. Ad esempio, la geografia , pur non essendo equivalente all'etnia e alla razza, può aiutarti a scoprire eventuali modelli disparati nelle prestazioni
- Identifica se esistono set di dati pubblici rappresentativi che potrebbero corrispondere bene al tuo problema. Puoi trovare una serie di set di dati diversificati e inclusivi sul sito Google AI , che includono Project Respect , Inclusive Images e Open Images Extended , tra gli altri.
- Sfrutta regole o classificatori, se pertinenti, per etichettare i tuoi dati con attributi oggettivi a livello di superficie. Ad esempio, puoi etichettare il testo in base alla presenza o meno di un termine identificativo nella frase. Tieni presente che i classificatori hanno le loro sfide e, se non stai attento, potrebbero introdurre anche un altro livello di pregiudizio. Sii chiaro su ciò che il tuo classificatore sta effettivamente classificando. Ad esempio, un classificatore di età sulle immagini classifica di fatto l'età percepita . Inoltre, quando possibile, sfruttare gli attributi a livello di superficie che possono essere identificati oggettivamente nei dati. Ad esempio, è sconsigliabile creare un classificatore di immagini per razza o etnia, perché questi non sono tratti visivi che possono essere definiti in un’immagine. Un classificatore probabilmente rileverebbe proxy o stereotipi. Invece, creare un classificatore per il tono della pelle potrebbe essere un modo più appropriato per etichettare e valutare un'immagine. Infine, garantire un'elevata precisione per i classificatori che etichettano tali attributi.
- Trova dati più rappresentativi etichettati
Assicurati sempre di valutare su set di dati multipli e diversi.
Se i dati di valutazione non sono adeguatamente rappresentativi della tua base utenti o dei tipi di dati che è probabile che si incontrino, potresti ritrovarti con metriche di equità ingannevolmente buone. Allo stesso modo, prestazioni elevate del modello su un set di dati non garantiscono prestazioni elevate su altri.
Tieni presente che i sottogruppi non sono sempre il modo migliore per classificare gli individui.
Le persone sono multidimensionali e appartengono a più di un gruppo, anche all'interno di una singola dimensione: considera qualcuno che è multirazziale o appartiene a più gruppi razziali. Inoltre, mentre i parametri complessivi per un dato gruppo razziale possono sembrare equi, interazioni particolari, come razza e genere insieme, possono mostrare pregiudizi non intenzionali. Inoltre, molti sottogruppi hanno confini confusi che vengono costantemente ridisegnati.
Quando ho testato un numero sufficiente di fette e come faccio a sapere quali fette testare?
Riconosciamo che esiste un vasto numero di gruppi o sezioni che potrebbero essere rilevanti da testare e, quando possibile, consigliamo di suddividere e valutare una gamma ampia e diversificata di sezioni e quindi di approfondire laddove si individuano opportunità di miglioramento. È anche importante riconoscere che, anche se potresti non notare problemi sulle sezioni che hai testato, ciò non implica che il tuo prodotto funzioni per tutti gli utenti, e ottenere feedback e test diversificati dagli utenti è importante per garantire di identificare continuamente nuovi opportunità.
Per iniziare, ti consigliamo di riflettere sul tuo caso d'uso particolare e sui diversi modi in cui gli utenti potrebbero interagire con il tuo prodotto. In che modo utenti diversi potrebbero avere esperienze diverse? Cosa significa per le fette da valutare? La raccolta di feedback da utenti diversi può anche evidenziare potenziali sezioni a cui dare priorità.
Quali metriche dovrei scegliere?
Quando selezioni quali parametri valutare per il tuo sistema, considera chi sperimenterà il tuo modello, come verrà vissuto e gli effetti di tale esperienza.
Ad esempio, in che modo il tuo modello offre alle persone maggiore dignità o autonomia o ha un impatto positivo sul loro benessere emotivo, fisico o finanziario? Al contrario, in che modo le previsioni del tuo modello potrebbero ridurre la dignità o l’autonomia delle persone o avere un impatto negativo sul loro benessere emotivo, fisico o finanziario?
In generale, come buona pratica consigliamo di suddividere tutte le metriche prestazionali esistenti. Ti consigliamo inoltre di valutare le tue metriche su più soglie per comprendere in che modo la soglia può influire sulle prestazioni di diversi gruppi.
Inoltre, se è presente un'etichetta prevista che è uniformemente "buona" o "cattiva", valutare la possibilità di riportare (per ciascun sottogruppo) la velocità con cui tale etichetta viene prevista. Ad esempio, un'etichetta "buona" sarebbe un'etichetta la cui previsione garantisce a una persona l'accesso ad alcune risorse o le consente di eseguire alcune azioni.
Metriche di equità critiche per la classificazione
Quando pensi a un modello di classificazione, pensa agli effetti degli errori (le differenze tra l'etichetta effettiva di "verità fondamentale" e l'etichetta del modello). Se alcuni errori possono rappresentare maggiori opportunità o danni per i tuoi utenti, assicurati di valutare le percentuali di questi errori tra gruppi di utenti. Questi tassi di errore sono definiti di seguito, nei parametri attualmente supportati dalla versione beta dei Fairness Indicators.
Nel corso del prossimo anno, speriamo di pubblicare casi di studio di diversi casi d'uso e le metriche ad essi associate in modo da poter evidenziare meglio quando diverse metriche potrebbero essere più appropriate.
Metriche oggi disponibili in Fairness Indicators
Tasso positivo/Tasso negativo
- Definizione: percentuale di punti dati classificati come positivi o negativi, indipendentemente dalla verità fondamentale
- Si riferisce a: parità demografica e uguaglianza dei risultati, quando uguali tra i sottogruppi
- Quando utilizzare questa metrica: casi d'uso di equità in cui è importante avere percentuali finali uguali di gruppi
Tasso di veri positivi/Tasso di falsi negativi
- Definizione: la percentuale di dati positivi (come etichettati nella ground Truth) che sono correttamente classificati come positivi, o la percentuale di dati positivi che sono erroneamente classificati come negativi
- Si riferisce a: Pari opportunità (per la classe positiva), quando uguali tra i sottogruppi
- Quando utilizzare questa metrica: casi d'uso dell'equità in cui è importante che la stessa percentuale di candidati qualificati sia valutata positiva in ciascun gruppo. Questo è più comunemente raccomandato in caso di classificazione di risultati positivi, come richieste di prestito, ammissioni a scuola o se il contenuto è adatto ai bambini
Tasso di veri negativi/Tasso di falsi positivi
- Definizione: la percentuale di punti dati negativi (come etichettati nella ground Truth) che sono correttamente classificati come negativi, o la percentuale di punti dati negativi che sono erroneamente classificati come positivi
- Si riferisce a: Pari opportunità (per la classe negativa), quando uguali tra i sottogruppi
- Quando utilizzare questa metrica: casi d'uso di equità in cui i tassi di errore (o la classificazione errata di qualcosa come positivo) sono più preoccupanti della classificazione degli aspetti positivi. Questo è più comune nei casi di abuso, dove gli aspetti positivi spesso portano ad azioni negative. Questi sono importanti anche per le tecnologie di analisi facciale come il rilevamento dei volti o gli attributi del volto
Precisione e AUC
- Si riferisce a: Parità predittiva, quando uguale tra i sottogruppi
- Quando utilizzare queste metriche: casi in cui la precisione dell'attività è più critica (non necessariamente in una determinata direzione), come l'identificazione dei volti o il raggruppamento dei volti
Tasso di false scoperte
- Definizione: percentuale di punti dati negativi (come etichettati nella verità fondamentale) che sono erroneamente classificati come positivi rispetto a tutti i punti dati classificati come positivi. Questo è anche l'inverso del PPV
- Si riferisce a: parità predittiva (nota anche come calibrazione), quando uguale tra i sottogruppi
- Quando utilizzare questa metrica: casi in cui la frazione di previsioni positive corrette dovrebbe essere uguale tra i sottogruppi
Tasso di false omissioni
- Definizione: percentuale di punti dati positivi (come etichettati nella verità fondamentale) che sono erroneamente classificati come negativi rispetto a tutti i punti dati classificati come negativi. Questo è anche l’inverso del VAN
- Si riferisce a: parità predittiva (nota anche come calibrazione), quando uguale tra i sottogruppi
- Quando utilizzare questa metrica: casi in cui la frazione di previsioni negative corrette dovrebbe essere uguale tra i sottogruppi
Tasso di ribaltamento complessivo/Tasso di ribaltamento previsione da positivo a negativo/Tasso di ribaltamento previsione da negativo a positivo
- Definizione: la probabilità che il classificatore fornisca una previsione diversa se l'attributo di identità in una determinata caratteristica venisse modificato.
- Si riferisce a: equità controfattuale
- Quando utilizzare questa metrica: quando si determina se la previsione del modello cambia quando gli attributi sensibili a cui si fa riferimento nell'esempio vengono rimossi o sostituiti. In tal caso, prendi in considerazione l'utilizzo della tecnica di accoppiamento logit controfattuale all'interno della libreria di riparazione del modello Tensorflow.
Conteggio flip / Conteggio flip previsione da positivo a negativo / Conteggio flip previsione da negativo a positivo *
- Definizione: il numero di volte in cui il classificatore fornisce una previsione diversa se il termine di identità in un dato esempio viene modificato.
- Si riferisce a: equità controfattuale
- Quando utilizzare questa metrica: quando si determina se la previsione del modello cambia quando gli attributi sensibili a cui si fa riferimento nell'esempio vengono rimossi o sostituiti. In tal caso, prendi in considerazione l'utilizzo della tecnica di accoppiamento logit controfattuale all'interno della libreria di riparazione del modello Tensorflow.
Esempi di quali metriche selezionare
- Il mancato rilevamento sistematico dei volti nell'app della fotocamera può comportare un'esperienza utente negativa per determinati gruppi di utenti. In questo caso, i falsi negativi in un sistema di rilevamento dei volti possono portare al guasto del prodotto, mentre un falso positivo (rilevare un volto quando non ce n'è uno) può comportare un leggero fastidio per l'utente. Pertanto, valutare e ridurre al minimo il tasso di falsi negativi è importante per questo caso d'uso.
- Contrassegnare ingiustamente i commenti di testo di determinate persone come "spam" o "alta tossicità" in un sistema di moderazione porta a mettere a tacere alcune voci. Da un lato, un elevato tasso di falsi positivi porta a una censura ingiusta. D’altro canto, un tasso elevato di falsi negativi potrebbe portare a una proliferazione di contenuti tossici provenienti da determinati gruppi, il che potrebbe danneggiare l’utente e costituire un danno rappresentazionale per tali gruppi. Pertanto, è importante considerare entrambi i parametri, oltre ai parametri che tengono conto di tutti i tipi di errori, come l'accuratezza o l'AUC.
Non vedi le metriche che stai cercando?
Segui la documentazione qui per aggiungere la tua metrica personalizzata.
Note finali
Un divario nella metrica tra due gruppi può essere un segnale che il tuo modello potrebbe presentare distorsioni ingiuste . Dovresti interpretare i risultati in base al tuo caso d'uso. Tuttavia, il primo segno che potresti trattare ingiustamente un gruppo di utenti è quando le metriche tra quel gruppo di utenti e il tuo totale sono significativamente diverse. Assicurati di tenere conto degli intervalli di confidenza quando osservi queste differenze. Quando il numero di campioni in una sezione particolare è troppo basso, la differenza tra le metriche potrebbe non essere precisa.
Raggiungere l'uguaglianza tra i gruppi sugli indicatori di equità non significa che il modello sia giusto. I sistemi sono estremamente complessi e il raggiungimento dell'uguaglianza su uno (o anche su tutti) i parametri forniti non può garantire l'equità.
Le valutazioni dell'equità dovrebbero essere eseguite durante tutto il processo di sviluppo e dopo il lancio (non il giorno prima del lancio). Proprio come migliorare il tuo prodotto è un processo continuo e soggetto ad aggiustamenti in base al feedback degli utenti e del mercato, rendere il tuo prodotto giusto ed equo richiede un'attenzione costante. Man mano che cambiano diversi aspetti del modello, come i dati di addestramento, gli input di altri modelli o la progettazione stessa, è probabile che le metriche di equità cambino. “Svuotare la barra” una volta non è sufficiente per garantire che tutti i componenti interagenti siano rimasti intatti nel tempo.
Per gli esempi rari e dannosi dovrebbero essere eseguiti test contraddittori. Le valutazioni di equità non intendono sostituire i test contraddittori. Un'ulteriore difesa contro esempi rari e mirati è fondamentale poiché questi esempi probabilmente non si manifesteranno nei dati di formazione o valutazione.