شاخص های انصاف: تفکر در مورد ارزیابی عادلانه

Fairness Indicators ابزاری مفید برای ارزیابی طبقه‌بندی‌کننده‌های باینری و چند کلاسه برای انصاف است. در نهایت، امیدواریم این ابزار را با مشارکت همه شما گسترش دهیم تا ملاحظات بیشتری را ارزیابی کنیم.

به خاطر داشته باشید که ارزیابی کمی تنها بخشی از ارزیابی یک تجربه کاربری گسترده تر است. با فکر کردن در مورد زمینه های مختلفی که کاربر ممکن است محصول شما را تجربه کند، شروع کنید. انتظار می رود محصول شما به انواع مختلف کاربران خدمت کند؟ چه کسی دیگری ممکن است تحت تأثیر این تجربه قرار گیرد؟

هنگام در نظر گرفتن تأثیر هوش مصنوعی بر مردم، مهم است که همیشه به یاد داشته باشید که جوامع انسانی بسیار پیچیده هستند! درک افراد، و هویت اجتماعی، ساختارهای اجتماعی و نظام‌های فرهنگی آنها، هر یک به تنهایی زمینه‌های عظیمی از تحقیقات آزاد هستند. پیچیدگی‌های تفاوت‌های بین فرهنگی در سرتاسر جهان را کنار بگذارید، و حتی به دست آوردن جای پایی در درک تأثیرات اجتماعی می‌تواند چالش‌برانگیز باشد. در صورت امکان، توصیه می‌شود با کارشناسان حوزه مناسب، که ممکن است شامل دانشمندان علوم اجتماعی، زبان‌شناسان اجتماعی، و انسان‌شناسان فرهنگی، و همچنین با اعضای جمعیت‌هایی که فناوری در آنها به کار گرفته می‌شود، مشورت کنید.

یک مدل واحد، به عنوان مثال، مدل سمیت که ما در colab مثال استفاده می کنیم، می تواند در زمینه های مختلف استفاده شود. برای مثال، یک مدل سمیت که در یک وب‌سایت برای فیلتر کردن نظرات توهین‌آمیز به کار می‌رود، یک مورد استفاده بسیار متفاوت از مدلی است که در یک نمونه رابط کاربری وب استفاده می‌شود، جایی که کاربران می‌توانند جمله‌ای را تایپ کنند و ببینند مدل چه امتیازی می‌دهد. بسته به مورد استفاده، و اینکه کاربران چگونه پیش‌بینی مدل را تجربه می‌کنند، محصول شما خطرات، اثرات و فرصت‌های متفاوتی خواهد داشت و ممکن است بخواهید نگرانی‌های مربوط به عدالت را ارزیابی کنید.

سوالات بالا پایه و اساس این است که چه ملاحظات اخلاقی، از جمله انصاف، ممکن است بخواهید هنگام طراحی و توسعه محصول مبتنی بر ML خود در نظر بگیرید. این سؤالات همچنین انگیزه می دهد که کدام معیارها و کدام گروه از کاربران را باید برای ارزیابی از این ابزار استفاده کنید.

قبل از غواصی بیشتر، در اینجا سه ​​منبع توصیه شده برای شروع وجود دارد:

  • کتاب راهنمای افراد + هوش مصنوعی برای طراحی هوش مصنوعی انسان محور: این کتاب راهنما منبعی عالی برای سوالات و جنبه هایی است که هنگام طراحی یک محصول مبتنی بر یادگیری ماشینی باید در نظر داشته باشید. در حالی که ما این کتاب راهنما را با در نظر گرفتن طراحان ایجاد کردیم، بسیاری از اصول به پاسخگویی به سوالاتی مانند آنچه در بالا مطرح شد کمک می کند.
  • درس‌های آموخته‌شده ما از انصاف : این سخنرانی در Google I/O درس‌هایی را که در هدف خود برای ساخت و طراحی محصولات فراگیر آموخته‌ایم، مورد بحث قرار می‌دهد.
  • دوره تصادف ML: انصاف : دوره ML Crash دارای یک بخش 70 دقیقه ای است که به شناسایی و ارزیابی نگرانی های مربوط به عدالت اختصاص دارد.

بنابراین، چرا به تک تک برش ها نگاه می کنیم؟ ارزیابی بر روی برش های فردی مهم است زیرا معیارهای کلی قوی می تواند عملکرد ضعیف گروه های خاص را پنهان کند. به طور مشابه، عملکرد خوب برای یک معیار خاص (دقت، AUC) همیشه به عملکرد قابل قبول برای سایر معیارها (نرخ مثبت کاذب، نرخ منفی کاذب) که در ارزیابی فرصت و آسیب برای کاربران به یک اندازه مهم هستند، ترجمه نمی شود.

در بخش‌های زیر برخی از جنبه‌هایی که باید در نظر گرفته شود، توضیح داده می‌شود.

بر اساس کدام گروه ها باید برش داد؟

به طور کلی، یک روش خوب این است که به تعداد گروه هایی که ممکن است تحت تأثیر محصول شما قرار گیرند، تقسیم بندی کنید، زیرا هرگز نمی دانید که چه زمانی ممکن است عملکرد یکی از دیگری متفاوت باشد. با این حال، اگر مطمئن نیستید، در مورد کاربران مختلفی که ممکن است با محصول شما درگیر باشند و اینکه چگونه ممکن است تحت تأثیر قرار گیرند فکر کنید. به ویژه، بخش هایی را در نظر بگیرید که مربوط به ویژگی های حساس مانند نژاد، قومیت، جنسیت، ملیت، درآمد، گرایش جنسی و وضعیت ناتوانی است.

اگر داده‌های برچسب‌گذاری شده برای برش‌هایی را که می‌خواهم بررسی کنم نداشته باشم، چه می‌شود؟

سؤال خوبی بود. ما می دانیم که بسیاری از مجموعه داده ها دارای برچسب حقیقت پایه برای ویژگی های هویت فردی نیستند.

اگر در این موقعیت هستید، چند روش را توصیه می کنیم:

  1. مشخص کنید که آیا ویژگی‌هایی وجود دارد که ممکن است بینشی از عملکرد در گروه‌ها به شما بدهد. برای مثال، جغرافیا اگرچه معادل قومیت و نژاد نیست، اما ممکن است به شما کمک کند تا هر گونه الگوی متفاوت در عملکرد را کشف کنید.
  2. مشخص کنید که آیا مجموعه داده های عمومی نماینده ای وجود دارد که ممکن است به خوبی با مشکل شما مطابقت داشته باشد. می‌توانید مجموعه‌ای از مجموعه داده‌های متنوع و فراگیر را در سایت هوش مصنوعی گوگل بیابید، که شامل Project Respect ، Inclusive Images ، Open Images Extended و غیره است.
  3. از قوانین یا طبقه‌بندی‌کننده‌ها، در صورت لزوم، برای برچسب‌گذاری داده‌های خود با ویژگی‌های سطح سطحی هدف استفاده کنید. به عنوان مثال، می توانید به متن برچسب بزنید که آیا عبارت هویتی در جمله وجود دارد یا خیر. به خاطر داشته باشید که طبقه‌بندی‌کننده‌ها چالش‌های خاص خود را دارند و اگر مراقب نباشید، ممکن است لایه دیگری از سوگیری را نیز معرفی کنید. در مورد اینکه طبقه بندی کننده شما واقعاً چه چیزی را طبقه بندی می کند روشن باشید. به عنوان مثال، یک طبقه‌بندی سن روی تصاویر در واقع سن درک شده را طبقه‌بندی می‌کند. علاوه بر این، در صورت امکان، از ویژگی‌های سطح سطحی استفاده کنید که می‌توانند به طور عینی در داده‌ها شناسایی شوند. برای مثال، ساختن یک طبقه‌بندی کننده تصویر برای نژاد یا قومیت توصیه نادرست است، زیرا اینها ویژگی‌های بصری نیستند که بتوان در یک تصویر تعریف کرد. یک طبقه‌بندی‌کننده احتمالاً از پروکسی‌ها یا کلیشه‌ها استفاده می‌کند. در عوض، ساختن یک طبقه‌بندی کننده برای رنگ پوست ممکن است راه مناسب‌تری برای برچسب‌گذاری و ارزیابی تصویر باشد. در نهایت، از دقت بالا برای طبقه بندی کننده هایی که چنین ویژگی هایی را برچسب گذاری می کنند، اطمینان حاصل کنید.
  4. داده های نماینده بیشتری را پیدا کنید که دارای برچسب هستند

همیشه مطمئن شوید که روی مجموعه داده‌های متعدد و متنوع ارزیابی می‌کنید.

اگر داده‌های ارزیابی شما به‌اندازه کافی معرف پایگاه کاربری‌تان یا انواع داده‌هایی که احتمالاً با آن‌ها مواجه می‌شوند نیست، ممکن است به معیارهای انصاف فریبنده خوبی دست پیدا کنید. به طور مشابه، عملکرد مدل بالا در یک مجموعه داده، عملکرد بالا را در سایر داده ها تضمین نمی کند.

به خاطر داشته باشید که زیر گروه ها همیشه بهترین راه برای طبقه بندی افراد نیستند.

مردم چند بعدی هستند و به بیش از یک گروه تعلق دارند، حتی در یک بعد واحد - فردی را در نظر بگیرید که چند نژادی است یا به چند گروه نژادی تعلق دارد. همچنین، در حالی که معیارهای کلی برای یک گروه نژادی خاص ممکن است منصفانه به نظر برسند، تعاملات خاصی مانند نژاد و جنسیت با هم ممکن است سوگیری ناخواسته را نشان دهند. علاوه بر این، بسیاری از زیر گروه ها دارای مرزهای فازی هستند که به طور مداوم در حال ترسیم مجدد هستند.

چه زمانی برش های کافی را آزمایش کرده ام و چگونه می توانم بدانم کدام برش ها را آزمایش کنم؟

ما تصدیق می‌کنیم که تعداد زیادی گروه یا برش وجود دارد که ممکن است برای آزمایش مرتبط باشند، و در صورت امکان، برش دادن و ارزیابی طیف متنوع و گسترده‌ای از برش‌ها و سپس غواصی عمیق را توصیه می‌کنیم که در آن فرصت‌هایی برای بهبود پیدا می‌کنید. همچنین مهم است که اذعان کنید که حتی اگر ممکن است نگرانی‌هایی را در بخش‌هایی که آزمایش کرده‌اید مشاهده نکنید، این بدان معنا نیست که محصول شما برای همه کاربران کار می‌کند، و دریافت بازخورد و آزمایش‌های متنوع از کاربران برای اطمینان از شناسایی مداوم موارد جدید مهم است. فرصت ها.

برای شروع، توصیه می‌کنیم در مورد استفاده خاص خود و روش‌های مختلفی که کاربران ممکن است با محصول شما درگیر شوند، فکر کنید. چگونه ممکن است کاربران مختلف تجربیات متفاوتی داشته باشند؟ این برای برش هایی که باید ارزیابی کنید به چه معناست؟ جمع آوری بازخورد از کاربران مختلف نیز ممکن است برش های بالقوه برای اولویت بندی را برجسته کند.

کدام معیارها را انتخاب کنم؟

هنگام انتخاب معیارهایی که باید برای سیستم خود ارزیابی کنید، در نظر بگیرید که چه کسی مدل شما را تجربه خواهد کرد، چگونه آن را تجربه خواهد کرد و اثرات آن تجربه را در نظر بگیرید.

به عنوان مثال، مدل شما چگونه به افراد وقار یا استقلال بیشتری می‌دهد یا بر رفاه عاطفی، فیزیکی یا مالی آنها تأثیر مثبت می‌گذارد؟ در مقابل، چگونه پیش‌بینی‌های مدل شما می‌تواند کرامت یا استقلال افراد را کاهش دهد یا بر رفاه عاطفی، فیزیکی یا مالی آنها تأثیر منفی بگذارد؟

به طور کلی، توصیه می کنیم تمام معیارهای عملکرد موجود خود را به عنوان تمرین خوب برش دهید. همچنین توصیه می‌کنیم معیارهای خود را در چند آستانه ارزیابی کنید تا بفهمید این آستانه چگونه می‌تواند بر عملکرد گروه‌های مختلف تأثیر بگذارد.

به‌علاوه، اگر برچسب پیش‌بینی‌شده‌ای وجود دارد که به طور یکنواخت «خوب» یا «بد» است، آنگاه نرخ پیش‌بینی آن برچسب را (برای هر زیرگروه) در نظر بگیرید. به عنوان مثال، یک برچسب "خوب" برچسبی است که پیش‌بینی آن به شخص اجازه دسترسی به برخی منابع را می‌دهد یا آنها را قادر می‌سازد تا عملی را انجام دهند.

معیارهای انصاف انتقادی برای طبقه بندی

هنگامی که به یک مدل طبقه بندی فکر می کنید، به اثرات خطاها فکر کنید (تفاوت بین برچسب واقعی "واقعیت پایه" و برچسب مدل). اگر برخی از خطاها ممکن است فرصت یا آسیب بیشتری برای کاربران شما ایجاد کند، مطمئن شوید که میزان این خطاها را در گروه‌های مختلف کاربران ارزیابی کرده‌اید. این نرخ های خطا در زیر، در معیارهایی که در حال حاضر توسط Fairness Indicators بتا پشتیبانی می شود، تعریف شده است.

در طول سال آینده، ما امیدواریم که مطالعات موردی موارد استفاده مختلف و معیارهای مرتبط با این موارد را منتشر کنیم تا بتوانیم زمانی که معیارهای مختلف مناسب‌ترین هستند را برجسته کنیم.

معیارهای امروزی در Fairness Indicators موجود است

نرخ مثبت / نرخ منفی

  • تعریف: درصد نقاط داده ای که مستقل از حقیقت زمینی به عنوان مثبت یا منفی طبقه بندی می شوند
  • مربوط به: برابری جمعیتی و برابری نتایج، زمانی که در بین زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: موارد استفاده منصفانه که در آن داشتن درصد نهایی برابر از گروه ها مهم است

نرخ مثبت واقعی / نرخ منفی نادرست

  • تعریف: درصدی از نقاط داده مثبت (همانطور که در حقیقت پایه برچسب گذاری شده است) که به درستی به عنوان مثبت طبقه بندی شده اند، یا درصد نقاط داده مثبت که به اشتباه به عنوان منفی طبقه بندی شده اند.
  • مربوط به: برابری فرصت (برای طبقه مثبت)، زمانی که در بین زیر گروه ها برابر است
  • زمان استفاده از این معیار: موارد استفاده منصفانه که در آن مهم است که درصد یکسانی از نامزدهای واجد شرایط در هر گروه مثبت ارزیابی شود. این معمولاً در موارد طبقه‌بندی نتایج مثبت، مانند درخواست‌های وام، پذیرش مدرسه، یا اینکه آیا محتوا برای کودکان مناسب است توصیه می‌شود.

نرخ منفی واقعی / نرخ مثبت نادرست

  • تعریف: درصدی از نقاط داده منفی (همانطور که در حقیقت پایه برچسب گذاری شده است) که به درستی به عنوان منفی طبقه بندی شده اند، یا درصد نقاط داده منفی که به اشتباه به عنوان مثبت طبقه بندی شده اند.
  • مربوط به: برابری فرصت (برای طبقه منفی)، زمانی که در بین زیر گروه ها برابر است
  • چه زمانی باید از این معیار استفاده کرد: مواردی که نرخ خطا (یا طبقه‌بندی اشتباه چیزی به عنوان مثبت) بیشتر از طبقه‌بندی موارد مثبت نگران‌کننده است، استفاده منصفانه است. این در موارد سوء استفاده بیشتر رایج است، جایی که موارد مثبت اغلب منجر به اعمال منفی می شود. اینها همچنین برای فناوری های تحلیل چهره مانند تشخیص چهره یا ویژگی های چهره مهم هستند

دقت و AUC

  • مربوط به: برابری پیش بینی کننده، زمانی که در بین زیر گروه ها برابر است
  • زمان استفاده از این معیارها: مواردی که دقت کار بسیار مهم است (نه لزوماً در جهت معین)، مانند شناسایی چهره یا خوشه‌بندی چهره

نرخ کشف نادرست

  • تعریف: درصدی از نقاط داده منفی (همانطور که در حقیقت پایه برچسب گذاری شده اند) که به اشتباه از بین تمام نقاط داده ای که به عنوان مثبت طبقه بندی شده اند به عنوان مثبت طبقه بندی شده اند. این نیز معکوس PPV است
  • مربوط به: برابری پیش‌بینی‌کننده (همچنین به عنوان کالیبراسیون شناخته می‌شود)، زمانی که در بین زیر گروه‌ها برابر باشد
  • زمان استفاده از این معیار: مواردی که کسری از پیش‌بینی‌های مثبت صحیح باید در میان گروه‌های فرعی برابر باشد.

نرخ حذف کاذب

  • تعریف: درصدی از نقاط داده مثبت (همانطور که در حقیقت پایه برچسب گذاری شده اند) که به اشتباه از بین تمام نقاط داده طبقه بندی شده به عنوان منفی به عنوان منفی طبقه بندی شده اند. این نیز معکوس NPV است
  • مربوط به: برابری پیش‌بینی‌کننده (همچنین به عنوان کالیبراسیون شناخته می‌شود)، زمانی که در بین زیر گروه‌ها برابر باشد
  • زمان استفاده از این معیار: مواردی که کسری از پیش‌بینی‌های منفی صحیح باید در بین زیر گروه‌ها برابر باشد.

نرخ چرخش کلی / نرخ چرخش پیش‌بینی مثبت به منفی / نرخ چرخش پیش‌بینی منفی به مثبت

  • تعریف: احتمال اینکه طبقه‌بندی‌کننده پیش‌بینی متفاوتی را در صورت تغییر ویژگی هویت در یک ویژگی خاص ارائه دهد.
  • مربوط به: انصاف خلاف واقع
  • زمان استفاده از این معیار: هنگام تعیین اینکه آیا پیش‌بینی مدل با حذف یا جایگزینی ویژگی‌های حساس اشاره‌شده در مثال تغییر می‌کند یا خیر. اگر اینطور است، از تکنیک جفت سازی Logit Counterfactual در کتابخانه Tensorflow Model Remediation استفاده کنید.

تعداد تلنگر / پیش‌بینی مثبت به منفی تعداد تلنگر / پیش‌بینی منفی به مثبت تعداد تلنگر *

  • تعریف: تعداد دفعاتی که طبقه‌بندی‌کننده پیش‌بینی متفاوتی را در صورت تغییر عبارت هویت در یک مثال داده شده ارائه می‌دهد.
  • مربوط به: انصاف خلاف واقع
  • زمان استفاده از این معیار: هنگام تعیین اینکه آیا پیش‌بینی مدل با حذف یا جایگزینی ویژگی‌های حساس اشاره‌شده در مثال تغییر می‌کند یا خیر. اگر اینطور است، از تکنیک جفت سازی Logit Counterfactual در کتابخانه Tensorflow Model Remediation استفاده کنید.

نمونه هایی از معیارهایی که باید انتخاب شوند

  • ناتوانی سیستماتیک در تشخیص چهره در یک برنامه دوربین می‌تواند منجر به تجربه کاربری منفی برای گروه‌های کاربری خاص شود. در این حالت، منفی کاذب در یک سیستم تشخیص چهره ممکن است منجر به خرابی محصول شود، در حالی که مثبت کاذب (تشخیص چهره در زمانی که وجود ندارد) ممکن است کمی آزاردهنده برای کاربر باشد. بنابراین، ارزیابی و به حداقل رساندن نرخ منفی کاذب برای این مورد مهم است.
  • علامت‌گذاری ناعادلانه کامنت‌های متنی افراد خاص به‌عنوان «هرزنامه» یا «سمیت بالا» در یک سیستم تعدیل منجر به خاموش شدن برخی صداها می‌شود. از یک طرف، نرخ مثبت کاذب بالا منجر به سانسور ناعادلانه می شود. از سوی دیگر، نرخ منفی کاذب بالا می‌تواند منجر به تکثیر محتوای سمی از گروه‌های خاص شود، که هم ممکن است به کاربر آسیب برساند و هم برای آن گروه‌ها یک آسیب نمایشی باشد. بنابراین، علاوه بر معیارهایی که انواع خطاها مانند دقت یا AUC را در نظر می گیرند، باید در نظر گرفتن هر دو معیار مهم باشد.

معیارهایی را که به دنبال آن هستید نمی بینید؟

اسناد را در اینجا دنبال کنید تا معیارهای سفارشی خود را اضافه کنید.

یادداشت های پایانی

شکاف در متریک بین دو گروه می تواند نشانه این باشد که مدل شما ممکن است دارای انحرافات ناعادلانه باشد . شما باید نتایج خود را بر اساس مورد استفاده خود تفسیر کنید. با این حال، اولین نشانه ای که نشان می دهد ممکن است با یک سری از کاربران به طور غیرمنصفانه رفتار کنید، زمانی است که معیارهای بین آن دسته از کاربران و کلی شما به طور قابل توجهی متفاوت است. هنگام بررسی این تفاوت‌ها، حتماً فواصل اطمینان را در نظر بگیرید. وقتی تعداد نمونه‌های کمی در یک برش خاص دارید، ممکن است تفاوت بین معیارها دقیق نباشد.

دستیابی به برابری بین گروه‌ها در شاخص‌های انصاف به معنای منصفانه بودن مدل نیست. سیستم ها بسیار پیچیده هستند و دستیابی به برابری در یکی (یا حتی همه) معیارهای ارائه شده نمی تواند انصاف را تضمین کند.

ارزیابی انصاف باید در طول فرآیند توسعه و پس از راه اندازی (نه روز قبل از راه اندازی) انجام شود. درست مانند بهبود محصول شما یک فرآیند مداوم و منوط به تعدیل بر اساس بازخورد کاربران و بازار است، عادلانه و عادلانه بودن محصول شما نیازمند توجه مداوم است. با تغییر جنبه‌های مختلف مدل، مانند داده‌های آموزشی، ورودی‌های مدل‌های دیگر، یا خود طراحی، معیارهای انصاف احتمالاً تغییر می‌کنند. یک بار "پاک کردن نوار" برای اطمینان از اینکه همه اجزای تعاملی در طول زمان دست نخورده باقی مانده اند کافی نیست.

آزمایش خصمانه باید برای نمونه های نادر و مخرب انجام شود. ارزشیابی انصاف به معنای جایگزینی آزمایش خصمانه نیست. دفاع اضافی در برابر نمونه های نادر و هدفمند بسیار مهم است زیرا این نمونه ها احتمالاً در داده های آموزشی یا ارزیابی ظاهر نمی شوند.