Fairness Indicators es una herramienta útil para evaluar la equidad de clasificadores binarios y de clases múltiples . Eventualmente, esperamos expandir esta herramienta, en asociación con todos ustedes, para evaluar aún más consideraciones.
Tenga en cuenta que la evaluación cuantitativa es solo una parte de la evaluación de una experiencia de usuario más amplia. Comience por pensar en los diferentes contextos a través de los cuales un usuario puede experimentar su producto. ¿Quiénes son los diferentes tipos de usuarios a los que se espera que sirva su producto? ¿Quién más puede verse afectado por la experiencia?
Al considerar el impacto de la IA en las personas, es importante recordar siempre que las sociedades humanas son extremadamente complejas. Comprender a las personas y sus identidades sociales, estructuras sociales y sistemas culturales son campos enormes de investigación abierta por derecho propio. Agregue las complejidades de las diferencias interculturales en todo el mundo, y obtener incluso un punto de apoyo para comprender el impacto social puede ser un desafío. Siempre que sea posible, se recomienda consultar con los expertos en el dominio adecuado, que pueden incluir científicos sociales, sociolingüistas y antropólogos culturales, así como miembros de las poblaciones en las que se implementará la tecnología.
Un solo modelo, por ejemplo, el modelo de toxicidad que aprovechamos en el ejemplo de colab , puede usarse en muchos contextos diferentes. Un modelo de toxicidad implementado en un sitio web para filtrar comentarios ofensivos, por ejemplo, es un caso de uso muy diferente al modelo que se implementa en una interfaz de usuario web de ejemplo donde los usuarios pueden escribir una oración y ver qué puntaje otorga el modelo. Dependiendo del caso de uso y de cómo los usuarios experimentan la predicción del modelo, su producto tendrá diferentes riesgos, efectos y oportunidades y es posible que desee evaluar diferentes preocupaciones de equidad.
Las preguntas anteriores son la base de las consideraciones éticas, incluida la equidad, que puede querer tener en cuenta al diseñar y desarrollar su producto basado en ML. Estas preguntas también motivan qué métricas y qué grupos de usuarios debe usar la herramienta para evaluar.
Antes de profundizar más, aquí hay tres recursos recomendados para comenzar:
- The People + AI Guidebook for Human-centered AI design: Esta guía es un gran recurso para las preguntas y los aspectos a tener en cuenta al diseñar un producto basado en aprendizaje automático. Si bien creamos esta guía pensando en los diseñadores, muchos de los principios ayudarán a responder preguntas como la planteada anteriormente.
- Nuestras lecciones aprendidas de equidad : esta charla en Google I/O analiza las lecciones que hemos aprendido en nuestro objetivo de crear y diseñar productos inclusivos.
- Curso intensivo de ML: Equidad : El Curso intensivo de ML tiene una sección de 70 minutos dedicada a identificar y evaluar las preocupaciones sobre la equidad.
Entonces, ¿por qué mirar rebanadas individuales? La evaluación de segmentos individuales es importante, ya que las métricas generales sólidas pueden ocultar el desempeño deficiente de ciertos grupos. De manera similar, un buen desempeño para una determinada métrica (precisión, AUC) no siempre se traduce en un desempeño aceptable para otras métricas (tasa de falsos positivos, tasa de falsos negativos) que son igualmente importantes para evaluar oportunidades y daños para los usuarios.
Las siguientes secciones repasan algunos de los aspectos a considerar.
¿Por qué grupos debo segmentar?
En general, una buena práctica es segmentar por tantos grupos como pueda verse afectado por su producto, ya que nunca se sabe cuándo el rendimiento puede diferir entre uno y otro. Sin embargo, si no está seguro, piense en los diferentes usuarios que pueden estar interactuando con su producto y cómo podrían verse afectados. Considere, especialmente, segmentos relacionados con características sensibles como raza, etnia, género, nacionalidad, ingresos, orientación sexual y estado de discapacidad.
¿Qué pasa si no tengo datos etiquetados para los segmentos que quiero investigar?
Buena pregunta. Sabemos que muchos conjuntos de datos no tienen etiquetas de verdad sobre el terreno para los atributos de identidad individuales.
Si te encuentras en esta posición, te recomendamos algunos enfoques:
- Identifique si hay atributos que tenga que puedan brindarle una idea del desempeño en los grupos. Por ejemplo, la geografía , si bien no es equivalente a la etnia y la raza, puede ayudarlo a descubrir patrones dispares en el desempeño.
- Identifique si hay conjuntos de datos públicos representativos que podrían corresponder bien a su problema. Puede encontrar una variedad de conjuntos de datos diversos e inclusivos en el sitio de Google AI , que incluyen Project Respect , Inclusive Images y Open Images Extended , entre otros.
- Aproveche las reglas o los clasificadores, cuando sea relevante, para etiquetar sus datos con atributos objetivos a nivel de superficie. Por ejemplo, puede etiquetar el texto en cuanto a si hay o no un término de identidad en la oración. Tenga en cuenta que los clasificadores tienen sus propios desafíos y, si no tiene cuidado, también pueden introducir otra capa de sesgo. Sea claro acerca de lo que su clasificador está clasificando realmente . Por ejemplo, un clasificador de edad en las imágenes está de hecho clasificando la edad percibida . Además, cuando sea posible, aproveche los atributos de nivel superficial que se pueden identificar objetivamente en los datos. Por ejemplo, no es aconsejable crear un clasificador de imágenes por raza o etnia, porque no son rasgos visuales que se puedan definir en una imagen. Es probable que un clasificador detecte proxies o estereotipos. En cambio, crear un clasificador para el tono de piel puede ser una forma más adecuada de etiquetar y evaluar una imagen. Por último, garantice una alta precisión para los clasificadores que etiquetan dichos atributos.
- Encuentre datos más representativos que estén etiquetados
Siempre asegúrese de evaluar en conjuntos de datos múltiples y diversos.
Si los datos de su evaluación no son adecuadamente representativos de su base de usuarios, o los tipos de datos que probablemente se encontrarán, puede terminar con métricas de equidad engañosamente buenas. Del mismo modo, el alto rendimiento del modelo en un conjunto de datos no garantiza un alto rendimiento en los demás.
Tenga en cuenta que los subgrupos no siempre son la mejor manera de clasificar a las personas.
Las personas son multidimensionales y pertenecen a más de un grupo, incluso dentro de una sola dimensión; considere a alguien que es multirracial o pertenece a múltiples grupos raciales. Además, si bien las métricas generales para un grupo racial determinado pueden parecer equitativas, las interacciones particulares, como la raza y el género juntos, pueden mostrar un sesgo no deseado. Además, muchos subgrupos tienen límites borrosos que se redefinen constantemente.
¿Cuándo probé suficientes rebanadas y cómo sé qué rebanadas probar?
Reconocemos que hay una gran cantidad de grupos o secciones que pueden ser relevantes para la prueba y, cuando sea posible, recomendamos dividir y evaluar una amplia y diversa gama de secciones y luego profundizar en las oportunidades de mejora. También es importante reconocer que, aunque es posible que no vea problemas en las porciones que ha probado, eso no implica que su producto funcione para todos los usuarios, y es importante obtener diversos comentarios y pruebas de los usuarios para asegurarse de que está identificando continuamente nuevos oportunidades.
Para comenzar, recomendamos pensar en su caso de uso particular y las diferentes formas en que los usuarios pueden interactuar con su producto. ¿Cómo podrían diferentes usuarios tener diferentes experiencias? ¿Qué significa eso para las rebanadas que debe evaluar? La recopilación de comentarios de diversos usuarios también puede resaltar segmentos potenciales para priorizar.
¿Qué métricas debo elegir?
Al seleccionar qué métricas evaluar para su sistema, considere quién experimentará su modelo, cómo se experimentará y los efectos de esa experiencia.
Por ejemplo, ¿cómo le da su modelo a las personas más dignidad o autonomía, o cómo impacta positivamente en su bienestar emocional, físico o financiero? Por el contrario, ¿cómo podrían las predicciones de su modelo reducir la dignidad o la autonomía de las personas, o afectar negativamente su bienestar emocional, físico o financiero?
En general, recomendamos dividir todas sus métricas de rendimiento existentes como una buena práctica. También recomendamos evaluar sus métricas a través de múltiples umbrales para comprender cómo el umbral puede afectar el rendimiento de diferentes grupos.
Además, si hay una etiqueta predicha que es uniformemente "buena" o "mala", considere informar (para cada subgrupo) la tasa a la que se predice esa etiqueta. Por ejemplo, una etiqueta "buena" sería una etiqueta cuya predicción otorga a una persona acceso a algún recurso o le permite realizar alguna acción.
Métricas de equidad crítica para la clasificación
Cuando piense en un modelo de clasificación, piense en los efectos de los errores (las diferencias entre la etiqueta real de "verdad básica" y la etiqueta del modelo). Si algunos errores pueden representar más oportunidades o perjuicios para sus usuarios, asegúrese de evaluar las tasas de estos errores en todos los grupos de usuarios. Estas tasas de error se definen a continuación, en las métricas actualmente admitidas por la versión beta de Fairness Indicators.
En el transcurso del próximo año, esperamos publicar estudios de casos de diferentes casos de uso y las métricas asociadas con estos para que podamos resaltar mejor cuándo las diferentes métricas pueden ser más apropiadas.
Métricas disponibles hoy en Indicadores de Equidad
Tasa Positiva / Tasa Negativa
- Definición: el porcentaje de puntos de datos que se clasifican como positivos o negativos, independientemente de la realidad del terreno
- Se relaciona con: Paridad demográfica e igualdad de resultados, cuando son iguales en todos los subgrupos
- Cuándo usar esta métrica: casos de uso de equidad en los que es importante tener porcentajes finales iguales de grupos
Tasa de verdaderos positivos / Tasa de falsos negativos
- Definición: el porcentaje de puntos de datos positivos (como se etiqueta en la verdad básica) que se clasifican correctamente como positivos, o el porcentaje de puntos de datos positivos que se clasifican incorrectamente como negativos
- Se relaciona con: Igualdad de oportunidades (para la clase positiva), cuando es igual en todos los subgrupos
- Cuándo usar esta métrica: casos de uso de equidad en los que es importante que el mismo % de candidatos calificados obtengan una calificación positiva en cada grupo. Esto se recomienda más comúnmente en casos de clasificación de resultados positivos, como solicitudes de préstamos, admisiones escolares o si el contenido es apto para niños.
Tasa de verdaderos negativos / Tasa de falsos positivos
- Definición: el porcentaje de puntos de datos negativos (como se etiqueta en la verdad básica) que se clasifican correctamente como negativos, o el porcentaje de puntos de datos negativos que se clasifican incorrectamente como positivos
- Se relaciona con: Igualdad de oportunidades (para la clase negativa), cuando es igual en todos los subgrupos
- Cuándo usar esta métrica: los casos de uso de equidad en los que las tasas de error (o la clasificación errónea de algo como positivo) son más preocupantes que la clasificación de los positivos. Esto es más común en casos de abuso, donde los aspectos positivos a menudo conducen a acciones negativas. Estos también son importantes para las tecnologías de análisis facial, como la detección de rostros o los atributos faciales.
Precisión y ABC
- Se relaciona con: Paridad predictiva, cuando es igual en todos los subgrupos
- Cuándo usar estas métricas: casos en los que la precisión de la tarea es más crítica (no necesariamente en una dirección determinada), como la identificación de rostros o la agrupación de rostros.
Tasa de descubrimiento falso
- Definición: El porcentaje de puntos de datos negativos (como están etiquetados en la verdad básica) que se clasifican incorrectamente como positivos de todos los puntos de datos clasificados como positivos. Este también es el inverso de PPV
- Se relaciona con: Paridad predictiva (también conocida como Calibración), cuando es igual en todos los subgrupos
- Cuándo usar esta métrica: casos en los que la fracción de predicciones positivas correctas debe ser igual en todos los subgrupos
Tasa de omisión falsa
- Definición: el porcentaje de puntos de datos positivos (como se etiqueta en la verdad básica) que se clasifican incorrectamente como negativos de todos los puntos de datos clasificados como negativos. Este es también el inverso del VAN
- Se relaciona con: Paridad predictiva (también conocida como Calibración), cuando es igual en todos los subgrupos
- Cuándo usar esta métrica: casos en los que la fracción de predicciones negativas correctas debe ser igual en todos los subgrupos
Tasa de rotación general / Tasa de rotación de predicción positiva a negativa / Tasa de rotación de predicción negativa a positiva
- Definición: La probabilidad de que el clasificador dé una predicción diferente si se cambiara el atributo de identidad en una característica determinada.
- Se relaciona con: Equidad contrafáctica
- Cuándo usar esta métrica: al determinar si la predicción del modelo cambia cuando se eliminan o reemplazan los atributos confidenciales a los que se hace referencia en el ejemplo. Si es así, considere usar la técnica de emparejamiento logit contrafactual dentro de la biblioteca de remediación del modelo de Tensorflow.
Flip Count / Predicción positiva a negativa Flip Count / Negativo a predicción positiva Flip Count *
- Definición: El número de veces que el clasificador da una predicción diferente si se cambia el término de identidad en un ejemplo dado.
- Se relaciona con: Equidad contrafáctica
- Cuándo usar esta métrica: al determinar si la predicción del modelo cambia cuando se eliminan o reemplazan los atributos confidenciales a los que se hace referencia en el ejemplo. Si es así, considere usar la técnica de emparejamiento logit contrafactual dentro de la biblioteca de remediación del modelo de Tensorflow.
Ejemplos de qué métricas seleccionar
- La falla sistemática en la detección de rostros en una aplicación de cámara puede generar una experiencia de usuario negativa para ciertos grupos de usuarios. En este caso, los falsos negativos en un sistema de detección de rostros pueden provocar el fallo del producto, mientras que un falso positivo (detectar un rostro cuando no lo hay) puede suponer una ligera molestia para el usuario. Por lo tanto, evaluar y minimizar la tasa de falsos negativos es importante para este caso de uso.
- Marcar injustamente los comentarios de texto de ciertas personas como "spam" o "alta toxicidad" en un sistema de moderación conduce a silenciar ciertas voces. Por un lado, una alta tasa de falsos positivos conduce a una censura injusta. Por otro lado, una alta tasa de falsos negativos podría conducir a una proliferación de contenido tóxico de ciertos grupos, lo que puede dañar al usuario y constituir un daño de representación para esos grupos. Por lo tanto, es importante tener en cuenta ambas métricas, además de las métricas que tienen en cuenta todo tipo de errores, como la precisión o el AUC.
¿No encuentra las métricas que está buscando?
Siga la documentación aquí para agregar su propia métrica personalizada.
notas finales
Una brecha en la métrica entre dos grupos puede ser una señal de que su modelo puede tener sesgos injustos . Debe interpretar sus resultados de acuerdo con su caso de uso. Sin embargo, la primera señal de que puede estar tratando a un conjunto de usuarios de manera injusta es cuando las métricas entre ese conjunto de usuarios y la suya en general son significativamente diferentes. Asegúrese de tener en cuenta los intervalos de confianza al observar estas diferencias. Cuando tiene muy pocas muestras en un segmento en particular, la diferencia entre las métricas puede no ser precisa.
Lograr la igualdad entre los grupos en los indicadores de equidad no significa que el modelo sea justo. Los sistemas son muy complejos y lograr la igualdad en una (o incluso en todas) de las métricas proporcionadas no puede garantizar la Equidad.
Las evaluaciones de imparcialidad deben realizarse durante todo el proceso de desarrollo y después del lanzamiento (no el día anterior al lanzamiento). Al igual que mejorar su producto es un proceso continuo y está sujeto a ajustes en función de los comentarios de los usuarios y del mercado, hacer que su producto sea justo y equitativo requiere atención continua. A medida que cambian diferentes aspectos del modelo, como los datos de entrenamiento, las entradas de otros modelos o el diseño en sí, es probable que cambien las métricas de equidad. “Limpiar la barra” una vez no es suficiente para garantizar que todos los componentes que interactúan se hayan mantenido intactos a lo largo del tiempo.
Se deben realizar pruebas de adversario para ejemplos raros y maliciosos. Las evaluaciones de imparcialidad no pretenden reemplazar las pruebas contradictorias. La defensa adicional contra ejemplos raros y específicos es crucial, ya que estos ejemplos probablemente no se manifestarán en los datos de capacitación o evaluación.