¿Cuándo debo usar MinDiff?
Aplique MinDiff en los casos en los que su modelo funcione bien en general, pero produzca errores perjudiciales con más frecuencia en los ejemplos que pertenecen a un grupo sensible y desee cerrar la brecha de rendimiento. Los grupos sensibles de interés pueden variar según su caso de uso, pero a menudo incluyen clases protegidas, como raza, religión, género, orientación sexual y más. A lo largo de este documento, utilizaremos "grupo sensible" para referirnos a cualquier conjunto de ejemplos pertenecientes a una clase protegida.
Hay dos condiciones principales para usar MinDiff para abordar segmentos de datos de bajo rendimiento:
- Ya ajustó y evaluó su modelo, identificando métricas que muestran segmentos de datos de bajo rendimiento. Esto debe hacerse antes de aplicar la remediación del modelo.
- Tiene, o puede obtener, una cantidad suficiente de ejemplos etiquetados relevantes que pertenecen al grupo de bajo rendimiento (más detalles a continuación).
MinDiff es una de las muchas técnicas para remediar el comportamiento desigual. En particular, puede ser una buena opción cuando intenta igualar directamente el rendimiento entre grupos. MinDiff se puede usar junto con otros enfoques, como el aumento de datos y otros, lo que puede conducir a mejores resultados. Sin embargo, si necesita priorizar en qué técnica invertir, debe hacerlo de acuerdo con las necesidades de su producto.
Al aplicar MinDiff, es posible que vea que el rendimiento se degrada o cambia ligeramente para los grupos con mejor rendimiento, a medida que mejoran los grupos con bajo rendimiento. Se espera esta compensación y debe evaluarse en el contexto de los requisitos de su producto. En la práctica, a menudo hemos visto que MinDiff no hace que los cortes de alto rendimiento caigan por debajo de los niveles aceptables, pero esto es específico de la aplicación y una decisión que debe tomar el propietario del producto.
¿En qué tipos de modelos puedo aplicar MinDiff?
Se ha demostrado que MinDiff es consistentemente efectivo cuando se aplica a clasificadores binarios. Es posible adaptar el método para otras aplicaciones, pero no se ha probado completamente. Se han realizado algunos trabajos para mostrar el éxito en tareas de clasificación y clasificación múltiple 1 , pero cualquier uso de MinDiff en estos u otros tipos de modelos debe considerarse experimental.
¿Sobre qué métricas puedo aplicar MinDiff?
MinDiff puede ser una buena solución cuando la métrica que intenta igualar entre grupos es la tasa de falsos positivos (FPR) o la tasa de falsos negativos (FNR) , pero puede funcionar para otras métricas. Como regla general, MinDiff puede funcionar cuando la métrica a la que se dirige es el resultado de diferencias en las distribuciones de puntuación entre los ejemplos que pertenecen a un grupo sensible y los ejemplos que no pertenecen a un grupo sensible.
Construyendo su conjunto de datos MinDiff
Cuando se prepare para entrenar con MinDiff, deberá preparar tres conjuntos de datos separados. Al igual que con el entrenamiento regular, sus conjuntos de datos MinDiff deben ser representativos de los usuarios a los que sirve su modelo. MinDiff puede funcionar sin esto, pero debe tener especial cuidado en tales casos.
Suponiendo que está tratando de mejorar el FPR de su modelo para ejemplos que pertenecen a una clase sensible, necesitará:
- El conjunto de entrenamiento original: el conjunto de datos original que se usó para entrenar su modelo de referencia
- El conjunto sensible MinDiff: un conjunto de datos de ejemplos que pertenecen a la clase sensible con solo etiquetas de verdad de terreno negativas. Estos ejemplos se usarán solo para calcular la pérdida MinDiff.
- El conjunto no sensible MinDiff: un conjunto de datos de ejemplos que no pertenecen a la clase sensible con solo etiquetas de verdad de terreno negativas. Estos ejemplos se usarán solo para calcular la pérdida MinDiff.
Al usar la biblioteca, combinará estos tres conjuntos de datos en un solo conjunto de datos, que servirá como su nuevo conjunto de entrenamiento.
Selección de ejemplos para MinDiff
Puede haber parecido contradictorio en el ejemplo anterior crear conjuntos de ejemplos etiquetados negativamente si le preocupan principalmente las disparidades en la tasa de falsos positivos . Sin embargo, recuerde que una predicción falsa positiva proviene de un ejemplo etiquetado negativamente clasificado incorrectamente como positivo.
Al recopilar sus datos para MinDiff, debe elegir ejemplos en los que la disparidad en el rendimiento sea evidente. En nuestro ejemplo anterior, esto significó elegir ejemplos etiquetados negativamente para abordar FPR. Si hubiéramos estado interesados en apuntar a FNR, habríamos tenido que elegir ejemplos etiquetados positivamente.
¿Cuántos datos necesito?
Buena pregunta: ¡depende de su caso de uso! Según la arquitectura de su modelo, la distribución de datos y la configuración de MinDiff, la cantidad de datos necesarios puede variar significativamente. En aplicaciones anteriores, hemos visto que MinDiff funciona bien con 5000 ejemplos en cada conjunto de entrenamiento de MinDiff (conjuntos 2 y 3 en la sección anterior). Con menos datos, existe un mayor riesgo de un rendimiento reducido, pero esto puede ser mínimo o aceptable dentro de los límites de sus limitaciones de producción. Después de aplicar MinDiff, deberá evaluar los resultados minuciosamente para garantizar un rendimiento aceptable. Si no son confiables o no cumplen con las expectativas de rendimiento, es posible que desee considerar recopilar más datos.
¿Cuándo MinDiff no es adecuado para mí?
MinDiff es una técnica poderosa que puede brindar resultados impresionantes, pero esto no significa que sea el método adecuado para todas las situaciones. Aplicarlo al azar no garantiza que se logre una solución adecuada.
Más allá de los requisitos discutidos anteriormente, hay casos en los que MinDiff puede ser técnicamente factible, pero no adecuado. Siempre debe diseñar su flujo de trabajo de ML de acuerdo con las prácticas recomendadas conocidas. Por ejemplo, si la tarea de su modelo está mal definida, las necesidades del producto no están claras o las etiquetas de su ejemplo están demasiado sesgadas, debe priorizar la solución de estos problemas. Del mismo modo, si no tiene una definición clara del grupo confidencial o no puede determinar de manera confiable si los ejemplos pertenecen al grupo confidencial, no podrá aplicar MinDiff de manera efectiva.
En un nivel superior, siempre debe considerar si su producto es un uso apropiado para ML. Si es así, considere los vectores potenciales de daño al usuario que crea. La búsqueda del LA responsable es un esfuerzo multifacético que tiene como objetivo anticipar una amplia gama de daños potenciales; MinDiff puede ayudar a mitigar algunos de estos, pero todos los resultados merecen una cuidadosa consideración.
1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Equidad en la clasificación de recomendaciones a través de comparaciones por pares.