Adalet Göstergeleri: Adalet Değerlendirmesini Düşünmek

Adillik Göstergeleri, ikili ve çok sınıflı sınıflandırıcıların adalet açısından değerlendirilmesi için yararlı bir araçtır. Sonunda, daha fazla hususu değerlendirmek için bu aracı hepinizin ortaklığıyla genişletmeyi umuyoruz.

Niceliksel değerlendirmenin daha geniş bir kullanıcı deneyimini değerlendirmenin yalnızca bir parçası olduğunu unutmayın. Bir kullanıcının ürününüzü deneyimleyebileceği farklı bağlamları düşünerek başlayın. Ürününüzün hizmet vermesi beklenen farklı kullanıcı türleri kimlerdir? Bu deneyimden başka kimler etkilenebilir?

Yapay zekanın insanlar üzerindeki etkisini değerlendirirken insan toplumlarının son derece karmaşık olduğunu her zaman hatırlamak önemlidir! İnsanları ve onların sosyal kimliklerini, sosyal yapılarını ve kültürel sistemlerini anlamak, başlı başına geniş bir açık araştırma alanıdır. Dünya çapındaki kültürler arası farklılıkların karmaşıklığını da hesaba katarsak, toplumsal etkiyi anlama konusunda bir temel oluşturmak bile zor olabilir. Mümkün olduğunda, sosyal bilimciler, sosyodilbilimciler ve kültürel antropologların yanı sıra teknolojinin uygulanacağı toplulukların üyelerini de içerebilecek uygun alan uzmanlarına danışmanız önerilir.

Tek bir model, örneğin kolab örneğinde kullandığımız toksisite modeli birçok farklı bağlamda kullanılabilir. Örneğin, rahatsız edici yorumları filtrelemek için bir web sitesinde dağıtılan bir toksisite modeli, kullanıcıların bir cümle yazıp modelin hangi puanı verdiğini görebildikleri örnek bir web kullanıcı arayüzünde dağıtılan modelden çok farklı bir kullanım durumudur. Kullanım senaryosuna ve kullanıcıların model tahminini nasıl deneyimlediğine bağlı olarak ürününüzün farklı riskleri, etkileri ve fırsatları olacaktır ve farklı adalet kaygıları açısından değerlendirmek isteyebilirsiniz.

Yukarıdaki sorular, makine öğrenimi tabanlı ürününüzü tasarlarken ve geliştirirken adalet de dahil olmak üzere hangi etik hususları dikkate almak isteyebileceğinizin temelini oluşturur. Bu sorular aynı zamanda aracı değerlendirmek için hangi metrikleri ve hangi kullanıcı gruplarını kullanmanız gerektiğini de motive eder.

Daha fazla ayrıntıya dalmadan önce, başlangıç ​​için önerilen üç kaynağı burada bulabilirsiniz:

  • İnsan Odaklı Yapay Zeka tasarımı için İnsanlar + Yapay Zeka Kılavuzu : Bu kılavuz, makine öğrenimi tabanlı bir ürün tasarlarken akılda tutulması gereken sorular ve hususlar için harika bir kaynaktır. Bu kılavuzu tasarımcıları göz önünde bulundurarak oluştururken, ilkelerin çoğu yukarıda sorulana benzer soruların yanıtlanmasına yardımcı olacaktır.
  • Öğrenilen Adillik Derslerimiz : Google I/O'daki bu konuşma, kapsayıcı ürünler oluşturma ve tasarlama hedefimizde öğrendiğimiz dersleri tartışıyor.
  • ML Hızlandırılmış Kursu: Adillik : ML Hızlandırılmış Kursu, adaletle ilgili kaygıların belirlenmesine ve değerlendirilmesine ayrılmış 70 dakikalık bir bölüme sahiptir.

Peki neden tek tek dilimlere bakalım? Bireysel dilimler üzerinden değerlendirme önemlidir, çünkü güçlü genel ölçümler belirli grupların düşük performansını gizleyebilir. Benzer şekilde, belirli bir ölçüm (doğruluk, AUC) için iyi performans göstermek, kullanıcılar için fırsat ve zararı değerlendirmede eşit derecede önemli olan diğer ölçümler (yanlış pozitif oranı, yanlış negatif oranı) için her zaman kabul edilebilir performans anlamına gelmez.

Aşağıdaki bölümlerde dikkate alınması gereken bazı hususlar açıklanacaktır.

Hangi gruplara göre dilimlemeliyim?

Genel olarak, ürününüzden etkilenebilecek sayıda gruba göre dilimlemek iyi bir uygulamadır çünkü performansın bir diğerinde ne zaman farklılık gösterebileceğini asla bilemezsiniz. Ancak emin değilseniz ürününüzle etkileşim kurabilecek farklı kullanıcıları ve bunların nasıl etkilenebileceğini düşünün. Özellikle ırk, etnik köken, cinsiyet, uyruk, gelir, cinsel yönelim ve engellilik durumu gibi hassas özelliklerle ilgili dilimleri göz önünde bulundurun.

Araştırmak istediğim dilimler için etiketlenmiş verilerim yoksa ne olur?

İyi soru. Pek çok veri kümesinin bireysel kimlik nitelikleri için temel doğruluk etiketlerine sahip olmadığını biliyoruz.

Kendinizi bu durumda bulursanız birkaç yaklaşım öneriyoruz:

  1. Gruplar arası performans hakkında size fikir verebilecek nitelikleriniz olup olmadığını belirleyin. Örneğin coğrafya , etnik köken ve ırkla eşdeğer olmasa da performanstaki farklı kalıpları ortaya çıkarmanıza yardımcı olabilir.
  2. Sorununuzu iyi bir şekilde eşleştirebilecek temsili genel veri kümelerinin olup olmadığını belirleyin. Google AI sitesinde Project Respect , Inclusive Images ve Open Images Extended gibi çeşitli ve kapsayıcı veri kümeleri bulabilirsiniz.
  3. Verilerinizi nesnel yüzey düzeyindeki niteliklerle etiketlemek için, uygun olduğunda kurallardan veya sınıflandırıcılardan yararlanın. Örneğin cümlede kimlik teriminin bulunup bulunmadığına göre metni etiketleyebilirsiniz. Sınıflandırıcıların kendi zorlukları olduğunu ve dikkatli olmazsanız başka bir önyargı katmanı daha ortaya çıkarabileceğini unutmayın. Sınıflandırıcınızın gerçekte neyi sınıflandırdığı konusunda net olun. Örneğin, görsellerdeki yaş sınıflandırıcı aslında algılanan yaşı sınıflandırıyor. Ek olarak, mümkün olduğunda verilerde nesnel olarak tanımlanabilecek yüzey düzeyindeki niteliklerden yararlanın. Örneğin ırk veya etnik kökene göre bir görüntü sınıflandırıcı oluşturmak tavsiye edilmez çünkü bunlar bir görüntüde tanımlanabilecek görsel özellikler değildir. Bir sınıflandırıcı muhtemelen temsili durumları veya stereotipleri tespit edecektir. Bunun yerine cilt tonuna yönelik bir sınıflandırıcı oluşturmak, bir görüntüyü etiketlemenin ve değerlendirmenin daha uygun bir yolu olabilir. Son olarak, bu tür nitelikleri etiketleyen sınıflandırıcılar için yüksek doğruluk sağlayın.
  4. Etiketli daha fazla temsili veri bulun

Her zaman birden fazla, çeşitli veri kümeleri üzerinde değerlendirme yaptığınızdan emin olun.

Değerlendirme verileriniz kullanıcı tabanınızı veya karşılaşılması muhtemel veri türlerini yeterince temsil etmiyorsa, yanıltıcı derecede iyi adalet ölçümleri elde edebilirsiniz. Benzer şekilde, bir veri kümesindeki yüksek model performansı, diğerlerinde de yüksek performansı garanti etmez.

Alt grupların bireyleri sınıflandırmanın her zaman en iyi yolu olmadığını unutmayın.

İnsanlar çok boyutludur ve tek bir boyut içinde bile birden fazla gruba aittirler; çok ırklı veya birden fazla ırksal gruba ait olan birini düşünün. Ayrıca, belirli bir ırk grubuna ilişkin genel ölçümler adil görünse de, ırk ve cinsiyet gibi belirli etkileşimler birlikte istenmeyen önyargılar gösterebilir. Üstelik birçok alt grubun sürekli olarak yeniden çizilen bulanık sınırları vardır.

Yeterli dilimi ne zaman test ettim ve hangi dilimleri test edeceğimi nasıl bileceğim?

Testle alakalı olabilecek çok sayıda grup veya dilim bulunduğunu kabul ediyoruz ve mümkün olduğunda, çeşitli ve geniş yelpazedeki dilimleri dilimleyip değerlendirmenizi ve ardından iyileştirme fırsatlarını tespit ettiğiniz yere derinlemesine dalmanızı öneririz. Test ettiğiniz dilimlerle ilgili herhangi bir endişe görmeseniz bile bunun, ürününüzün tüm kullanıcılar için işe yaradığı anlamına gelmediğini ve çeşitli kullanıcı geri bildirimleri ve testleri almanın, sürekli olarak yeni ürünler belirlediğinizden emin olmak için önemli olduğunu kabul etmeniz de önemlidir. fırsatlar.

Başlamak için, özel kullanım durumunuzu ve kullanıcıların ürününüzle etkileşimde bulunabileceği farklı yolları düşünmenizi öneririz. Farklı kullanıcılar nasıl farklı deneyimlere sahip olabilir? Değerlendirmeniz gereken dilimler açısından bu ne anlama geliyor? Çeşitli kullanıcılardan geri bildirim toplamak, önceliklendirilecek potansiyel dilimleri de vurgulayabilir.

Hangi metrikleri seçmeliyim?

Sisteminiz için hangi metrikleri değerlendireceğinizi seçerken modelinizi kimlerin deneyimleyeceğini, nasıl deneyimleyeceğini ve bu deneyimin etkilerini göz önünde bulundurun.

Örneğin, modeliniz insanlara nasıl daha fazla onur ve özerklik veriyor ya da onların duygusal, fiziksel veya finansal refahlarını nasıl olumlu yönde etkiliyor? Buna karşılık, modelinizin tahminleri insanların itibarını veya özerkliğini nasıl azaltabilir veya onların duygusal, fiziksel veya finansal refahını nasıl olumsuz etkileyebilir?

Genel olarak, iyi bir uygulama olarak mevcut tüm performans ölçümlerinizi parçalara ayırmanızı öneririz. Eşiğin farklı grupların performansını nasıl etkileyebileceğini anlamak için metriklerinizi birden fazla eşik üzerinden değerlendirmenizi de öneririz .

Ek olarak, aynı şekilde "iyi" veya "kötü" olan tahmin edilen bir etiket varsa, bu etiketin tahmin edilme hızını (her alt grup için) raporlamayı düşünün. Örneğin, "iyi" bir etiket, tahmininin bir kişiye bazı kaynaklara erişmesine veya bazı eylemleri gerçekleştirmesine olanak tanıyan bir etiket olabilir.

Sınıflandırma için kritik adalet ölçümleri

Bir sınıflandırma modeli hakkında düşünürken, hataların etkilerini (gerçek “temel gerçek” etiketi ile modelin etiketi arasındaki farkları) düşünün. Bazı hataların kullanıcılarınıza daha fazla fırsat sunması veya zarar vermesi muhtemelse, bu hataların kullanıcı grupları arasındaki oranlarını değerlendirdiğinizden emin olun. Bu hata oranları, şu anda Adillik Göstergeleri beta tarafından desteklenen metriklerde aşağıda tanımlanmıştır.

Gelecek yıl boyunca, farklı kullanım senaryolarına ve bunlarla ilişkili ölçümlere ilişkin örnek olay incelemelerini yayınlamayı umuyoruz; böylece farklı ölçümlerin ne zaman en uygun olabileceğini daha iyi vurgulayabiliriz.

Adillik Göstergelerinde bugün mevcut olan ölçümler

Pozitif Oran / Negatif Oran

  • Tanım: Temel gerçeklikten bağımsız olarak pozitif veya negatif olarak sınıflandırılan veri noktalarının yüzdesi
  • Şunlarla ilgilidir: Alt gruplar arasında eşit olduğunda Demografik Eşitlik ve Sonuçların Eşitliği
  • Bu ölçüm ne zaman kullanılmalı: Grupların nihai yüzdelerinin eşit olmasının önemli olduğu adil kullanım durumları

Doğru Pozitif Oranı / Yanlış Negatif Oranı

  • Tanım: Doğru bir şekilde pozitif olarak sınıflandırılan pozitif veri noktalarının (temel gerçekte etiketlendiği şekliyle) yüzdesi veya yanlış bir şekilde negatif olarak sınıflandırılan pozitif veri noktalarının yüzdesi
  • Şunlarla ilgilidir: Alt gruplar arasında eşit olduğunda Fırsat Eşitliği (pozitif sınıf için)
  • Bu ölçüm ne zaman kullanılmalı: Her grupta nitelikli adayların aynı yüzdesinin olumlu olarak derecelendirilmesinin önemli olduğu adil kullanım durumları. Bu en çok kredi başvuruları, okula kabuller veya içeriğin çocuklara uygun olup olmadığı gibi olumlu sonuçların sınıflandırıldığı durumlarda önerilir.

Doğru Negatif Oranı / Yanlış Pozitif Oranı

  • Tanım: Doğru şekilde negatif olarak sınıflandırılan negatif veri noktalarının (temel gerçekte etiketlendiği şekliyle) yüzdesi veya yanlış bir şekilde pozitif olarak sınıflandırılan negatif veri noktalarının yüzdesi
  • Şunlarla ilgilidir: Alt gruplar arasında eşit olduğunda Fırsat Eşitliği (negatif sınıf için)
  • Bu ölçüm ne zaman kullanılmalı: Hata oranlarının (veya bir şeyin pozitif olarak yanlış sınıflandırılmasının) pozitifleri sınıflandırmaktan daha endişe verici olduğu adil kullanım durumları. Bu, olumlu eylemlerin genellikle olumsuz eylemlere yol açtığı istismar vakalarında en yaygın olanıdır. Bunlar aynı zamanda yüz algılama veya yüz özellikleri gibi Yüz Analiz Teknolojileri için de önemlidir.

Doğruluk ve AUC

  • Şunlarla ilgilidir: Alt gruplar arasında eşit olduğunda Tahmine Dayalı Parite
  • Bu ölçümler ne zaman kullanılmalı: Yüz tanımlama veya yüz kümeleme gibi görevin hassasiyetinin en kritik olduğu durumlar (belirli bir yönde olması gerekmez)

Yanlış Keşif Oranı

  • Tanım: Pozitif olarak sınıflandırılan tüm veri noktaları arasında hatalı bir şekilde pozitif olarak sınıflandırılan negatif veri noktalarının (temel gerçekte etiketlendiği gibi) yüzdesi. Bu aynı zamanda PPV'nin tersidir
  • Şunlarla ilgilidir: Alt gruplar arasında eşit olduğunda Tahmine Dayalı Parite (Kalibrasyon olarak da bilinir)
  • Bu ölçüm ne zaman kullanılmalı: Doğru pozitif tahminlerin oranının alt gruplar arasında eşit olması gereken durumlar

Yanlış İhmal Oranı

  • Tanım: Negatif olarak sınıflandırılan tüm veri noktaları arasında yanlışlıkla negatif olarak sınıflandırılan pozitif veri noktalarının (temel gerçekte etiketlendiği gibi) yüzdesi. Bu aynı zamanda NPV'nin tersidir
  • Şunlarla ilgilidir: Alt gruplar arasında eşit olduğunda Tahmine Dayalı Parite (Kalibrasyon olarak da bilinir)
  • Bu ölçüm ne zaman kullanılmalı: Doğru negatif tahminlerin oranının alt gruplar arasında eşit olması gereken durumlar

Genel Çevirme Oranı / Pozitiften Negatif Tahmine Çevirme Oranı / Negatiften Pozitif Tahmine Çevirme Oranı

  • Tanım: Belirli bir özellikteki kimlik özelliğinin değişmesi durumunda sınıflandırıcının farklı bir tahmin verme olasılığı.
  • Şunlarla ilgilidir: Karşıolgusal adalet
  • Bu ölçüm ne zaman kullanılmalı: Örnekte referans verilen hassas özellikler kaldırıldığında veya değiştirildiğinde modelin tahmininin değişip değişmediğini belirlerken. Böyle bir durumda Tensorflow Model Düzeltme kitaplığındaki Karşı Olgusal Logit Eşleştirme tekniğini kullanmayı düşünün.

Çevirme Sayısı / Pozitiften Negatif Tahmine Çevirme Sayısı / Negatiften Pozitif Tahmine Çevirme Sayısı *

  • Tanım: Belirli bir örnekteki kimlik teriminin değişmesi durumunda sınıflandırıcının farklı bir tahmin verme sayısı.
  • Şunlarla ilgilidir: Karşıolgusal adalet
  • Bu ölçüm ne zaman kullanılmalı: Örnekte referans verilen hassas özellikler kaldırıldığında veya değiştirildiğinde modelin tahmininin değişip değişmediğini belirlerken. Böyle bir durumda Tensorflow Model Düzeltme kitaplığındaki Karşı Olgusal Logit Eşleştirme tekniğini kullanmayı düşünün.

Hangi metriklerin seçileceğine ilişkin örnekler

  • Bir kamera uygulamasında yüzlerin sistematik olarak algılanamaması, belirli kullanıcı grupları için olumsuz bir kullanıcı deneyimine yol açabilir. Bu durumda, yüz algılama sistemindeki hatalı negatifler ürünün arızalanmasına yol açabilirken, hatalı pozitif (yüz yokken yüzün algılanması) kullanıcı açısından hafif bir rahatsızlık yaratabilir. Bu nedenle, yanlış negatif oranının değerlendirilmesi ve en aza indirilmesi bu kullanım durumu için önemlidir.
  • Belirli kişilerden gelen metin yorumlarının bir denetleme sisteminde haksız yere "spam" veya "yüksek zehirlilik" olarak işaretlenmesi, belirli seslerin susturulmasına yol açar. Bir yandan, yüksek yanlış pozitiflik oranı adil olmayan sansüre yol açmaktadır. Öte yandan, yüksek bir yanlış negatif oranı, belirli gruplardan gelen toksik içeriğin çoğalmasına neden olabilir ve bu da hem kullanıcıya zarar verebilir hem de bu gruplar için temsili zarar oluşturabilir. Bu nedenle, doğruluk veya AUC gibi her türlü hatayı dikkate alan ölçümlerin yanı sıra her iki ölçümün de dikkate alınması önemlidir.

Aradığınız metrikleri göremiyor musunuz?

Kendi özel ölçümünüzü eklemek için buradaki belgeleri izleyin.

Son notlar

İki grup arasındaki metrik farkı, modelinizin adil olmayan çarpıklıklara sahip olabileceğinin bir işareti olabilir . Sonuçlarınızı kullanım durumunuza göre yorumlamalısınız. Ancak, bir kullanıcı grubuna adaletsiz davrandığınızın ilk işareti, o kullanıcı grubu ile geneliniz arasındaki metriklerin önemli ölçüde farklı olmasıdır. Bu farklılıklara bakarken güven aralıklarını hesaba kattığınızdan emin olun. Belirli bir dilimde çok az örneğiniz olduğunda metrikler arasındaki fark doğru olmayabilir.

Adillik Göstergelerinde gruplar arasında eşitliğin sağlanması, modelin adil olduğu anlamına gelmez. Sistemler son derece karmaşıktır ve sağlanan ölçütlerin birinde (veya hatta hepsinde) eşitliğin sağlanması Adilliği garanti edemez.

Adillik değerlendirmeleri, geliştirme süreci boyunca ve lansman sonrasında (lansmandan önceki gün değil) yürütülmelidir. Tıpkı ürününüzü iyileştirmenin devam eden bir süreç olduğu ve kullanıcı ve pazar geri bildirimlerine dayalı olarak ayarlamaya tabi olduğu gibi, ürününüzü adil ve hakkaniyetli hale getirmek de sürekli dikkat gerektirir. Eğitim verileri, diğer modellerden gelen girdiler veya tasarımın kendisi gibi modelin farklı yönleri değiştikçe adalet ölçümlerinin de değişmesi muhtemeldir. Etkileşimli bileşenlerin tamamının zaman içinde sağlam kalmasını sağlamak için "çıtayı bir kez temizlemek" yeterli değildir.

Nadir, kötü niyetli örnekler için çekişmeli testler yapılmalıdır. Adillik değerlendirmeleri, rakip testlerin yerini almaz. Nadir, hedeflenen örneklere karşı ek savunma çok önemlidir çünkü bu örnekler muhtemelen eğitim veya değerlendirme verilerinde ortaya çıkmayacaktır.