निष्पक्षता संकेतक निष्पक्षता के लिए बाइनरी और मल्टी-क्लास क्लासिफायर का मूल्यांकन करने के लिए एक उपयोगी उपकरण है। अंततः, हम आशा करते हैं कि हम आप सभी के साथ साझेदारी में इस टूल का विस्तार करेंगे, ताकि और भी अधिक विचारों का मूल्यांकन किया जा सके।
ध्यान रखें कि मात्रात्मक मूल्यांकन व्यापक उपयोगकर्ता अनुभव के मूल्यांकन का केवल एक हिस्सा है। उन विभिन्न संदर्भों के बारे में सोचकर शुरुआत करें जिनके माध्यम से उपयोगकर्ता आपके उत्पाद का अनुभव कर सकता है। आपके उत्पाद द्वारा किन विभिन्न प्रकार के उपयोगकर्ताओं को सेवा प्रदान करने की अपेक्षा की जाती है? अनुभव से और कौन प्रभावित हो सकता है?
लोगों पर एआई के प्रभाव पर विचार करते समय, यह हमेशा याद रखना महत्वपूर्ण है कि मानव समाज बेहद जटिल हैं! लोगों को समझना, और उनकी सामाजिक पहचान, सामाजिक संरचनाएं और सांस्कृतिक प्रणालियाँ, प्रत्येक अपने आप में खुले शोध के विशाल क्षेत्र हैं। दुनिया भर में अंतर-सांस्कृतिक मतभेदों की जटिलताओं को समझना, और सामाजिक प्रभाव को समझना भी चुनौतीपूर्ण हो सकता है। जब भी संभव हो, यह अनुशंसा की जाती है कि आप उपयुक्त डोमेन विशेषज्ञों से परामर्श करें, जिसमें सामाजिक वैज्ञानिक, समाजशास्त्री और सांस्कृतिक मानवविज्ञानी शामिल हो सकते हैं, साथ ही उस आबादी के सदस्य भी शामिल हो सकते हैं जिन पर प्रौद्योगिकी तैनात की जाएगी।
एक एकल मॉडल, उदाहरण के लिए, विषाक्तता मॉडल जिसका हम उदाहरण कोलाब में लाभ उठाते हैं, का उपयोग कई अलग-अलग संदर्भों में किया जा सकता है। उदाहरण के लिए, आपत्तिजनक टिप्पणियों को फ़िल्टर करने के लिए किसी वेबसाइट पर तैनात किया गया विषाक्तता मॉडल, उदाहरण वेब यूआई में तैनात किए जा रहे मॉडल की तुलना में एक बहुत अलग उपयोग का मामला है जहां उपयोगकर्ता एक वाक्य टाइप कर सकते हैं और देख सकते हैं कि मॉडल क्या स्कोर देता है। उपयोग के मामले के आधार पर, और उपयोगकर्ता मॉडल भविष्यवाणी का अनुभव कैसे करते हैं, आपके उत्पाद में अलग-अलग जोखिम, प्रभाव और अवसर होंगे और आप विभिन्न निष्पक्षता चिंताओं के लिए मूल्यांकन करना चाह सकते हैं।
उपरोक्त प्रश्न इस बात का आधार हैं कि आप अपने एमएल-आधारित उत्पाद को डिजाइन और विकसित करते समय निष्पक्षता सहित किन नैतिक विचारों को ध्यान में रखना चाहेंगे। ये प्रश्न यह भी प्रेरित करते हैं कि आपको किन मेट्रिक्स और उपयोगकर्ताओं के किन समूहों का मूल्यांकन करने के लिए टूल का उपयोग करना चाहिए।
आगे बढ़ने से पहले, आरंभ करने के लिए यहां तीन अनुशंसित संसाधन दिए गए हैं:
- मानव-केंद्रित एआई डिज़ाइन के लिए पीपल + एआई गाइडबुक : मशीन-लर्निंग आधारित उत्पाद को डिज़ाइन करते समय ध्यान में रखने योग्य प्रश्नों और पहलुओं के लिए यह गाइडबुक एक बेहतरीन संसाधन है। हालाँकि हमने यह गाइडबुक डिजाइनरों को ध्यान में रखकर बनाई है, लेकिन कई सिद्धांत ऊपर दिए गए सवालों के जवाब देने में मदद करेंगे।
- हमारे द्वारा सीखे गए निष्पक्षता के सबक : Google I/O की यह वार्ता उन पाठों पर चर्चा करती है जो हमने समावेशी उत्पाद बनाने और डिजाइन करने के अपने लक्ष्य में सीखे हैं।
- एमएल क्रैश कोर्स: निष्पक्षता : एमएल क्रैश कोर्स में 70 मिनट का एक खंड है जो निष्पक्षता संबंधी चिंताओं की पहचान और मूल्यांकन के लिए समर्पित है।
तो, अलग-अलग स्लाइस को क्यों देखें? अलग-अलग स्लाइस पर मूल्यांकन महत्वपूर्ण है क्योंकि मजबूत समग्र मेट्रिक्स कुछ समूहों के खराब प्रदर्शन को अस्पष्ट कर सकते हैं। इसी तरह, एक निश्चित मीट्रिक (सटीकता, एयूसी) के लिए अच्छा प्रदर्शन हमेशा अन्य मीट्रिक (झूठी सकारात्मक दर, झूठी नकारात्मक दर) के लिए स्वीकार्य प्रदर्शन में तब्दील नहीं होता है जो उपयोगकर्ताओं के लिए अवसर और नुकसान का आकलन करने में समान रूप से महत्वपूर्ण हैं।
नीचे दिए गए अनुभाग कुछ पहलुओं पर विचार करेंगे।
मुझे किन समूहों को विभाजित करना चाहिए?
सामान्य तौर पर, एक अच्छा अभ्यास यह है कि आपके उत्पाद से प्रभावित होने वाले कई समूहों को विभाजित किया जाए, क्योंकि आप कभी नहीं जानते कि प्रदर्शन कब दूसरे के लिए भिन्न हो सकता है। हालाँकि, यदि आप निश्चित नहीं हैं, तो उन विभिन्न उपयोगकर्ताओं के बारे में सोचें जो आपके उत्पाद से जुड़ सकते हैं और वे कैसे प्रभावित हो सकते हैं। विशेष रूप से नस्ल, जातीयता, लिंग, राष्ट्रीयता, आय, यौन रुझान और विकलांगता की स्थिति जैसी संवेदनशील विशेषताओं से संबंधित अंशों पर विचार करें।
यदि मेरे पास उन स्लाइसों के लिए डेटा लेबल नहीं है जिनकी मैं जांच करना चाहता हूं तो क्या होगा?
अच्छा प्रश्न। हम जानते हैं कि कई डेटासेट में व्यक्तिगत पहचान विशेषताओं के लिए जमीनी सच्चाई वाले लेबल नहीं होते हैं।
यदि आप स्वयं को इस स्थिति में पाते हैं, तो हम कुछ दृष्टिकोण सुझाते हैं:
- पहचानें कि क्या आपके पास ऐसे गुण हैं जो आपको समूहों में प्रदर्शन के बारे में कुछ जानकारी दे सकते हैं। उदाहरण के लिए, भूगोल हालांकि जातीयता और नस्ल के बराबर नहीं है, फिर भी आपको प्रदर्शन में किसी भी असमान पैटर्न को उजागर करने में मदद मिल सकती है
- पहचानें कि क्या ऐसे प्रतिनिधि सार्वजनिक डेटासेट हैं जो आपकी समस्या को अच्छी तरह से मैप कर सकते हैं। आप Google AI साइट पर विविध और समावेशी डेटासेट की एक श्रृंखला पा सकते हैं, जिसमें प्रोजेक्ट रेस्पेक्ट , इनक्लूसिव इमेज और ओपन इमेज एक्सटेंडेड आदि शामिल हैं।
- अपने डेटा को वस्तुनिष्ठ सतह-स्तरीय विशेषताओं के साथ लेबल करने के लिए, जब प्रासंगिक हो, नियमों या क्लासिफायर का लाभ उठाएं। उदाहरण के लिए, आप टेक्स्ट को लेबल कर सकते हैं कि वाक्य में कोई पहचान शब्द है या नहीं। ध्यान रखें कि वर्गीकरणकर्ताओं की अपनी चुनौतियाँ होती हैं, और यदि आप सावधान नहीं हैं, तो पूर्वाग्रह की एक और परत भी आ सकती है। इस बारे में स्पष्ट रहें कि आपका क्लासिफायर वास्तव में क्या वर्गीकृत कर रहा है। उदाहरण के लिए, छवियों पर एक आयु वर्गीकरणकर्ता वास्तव में अनुमानित आयु को वर्गीकृत कर रहा है। इसके अतिरिक्त, जब संभव हो, सतह-स्तरीय विशेषताओं का लाभ उठाएं जिन्हें डेटा में निष्पक्ष रूप से पहचाना जा सकता है । उदाहरण के लिए, नस्ल या जातीयता के लिए एक छवि वर्गीकरणकर्ता बनाना गलत सलाह है, क्योंकि ये दृश्य लक्षण नहीं हैं जिन्हें किसी छवि में परिभाषित किया जा सकता है। एक क्लासिफायरियर संभवतः प्रॉक्सी या रूढ़िवादिता को उठाएगा। इसके बजाय, त्वचा के रंग के लिए एक क्लासिफायरियर बनाना किसी छवि को लेबल करने और उसका मूल्यांकन करने का अधिक उपयुक्त तरीका हो सकता है। अंत में, ऐसी विशेषताओं को लेबल करने वाले क्लासिफायर के लिए उच्च सटीकता सुनिश्चित करें।
- लेबल किया गया अधिक प्रतिनिधि डेटा ढूंढें
हमेशा एकाधिक, विविध डेटासेट पर मूल्यांकन करना सुनिश्चित करें।
यदि आपका मूल्यांकन डेटा आपके उपयोगकर्ता आधार, या सामने आने वाले डेटा के प्रकारों का पर्याप्त रूप से प्रतिनिधित्व नहीं करता है, तो आप भ्रामक रूप से अच्छे निष्पक्षता मेट्रिक्स के साथ समाप्त हो सकते हैं। इसी तरह, एक डेटासेट पर उच्च मॉडल प्रदर्शन दूसरों पर उच्च प्रदर्शन की गारंटी नहीं देता है।
ध्यान रखें कि उपसमूह हमेशा व्यक्तियों को वर्गीकृत करने का सबसे अच्छा तरीका नहीं होते हैं।
लोग बहुआयामी होते हैं और एक से अधिक समूहों से संबंधित होते हैं, यहां तक कि एक ही आयाम के भीतर भी - किसी ऐसे व्यक्ति पर विचार करें जो बहुजातीय है, या कई नस्लीय समूहों से संबंधित है। इसके अलावा, जबकि किसी दिए गए नस्लीय समूह के लिए समग्र मेट्रिक्स न्यायसंगत लग सकते हैं, विशेष इंटरैक्शन, जैसे कि नस्ल और लिंग एक साथ, अनपेक्षित पूर्वाग्रह दिखा सकते हैं। इसके अलावा, कई उपसमूहों की सीमाएँ अस्पष्ट हैं जिन्हें लगातार पुनः रेखांकित किया जा रहा है।
मैंने कब पर्याप्त स्लाइस का परीक्षण किया है, और मुझे कैसे पता चलेगा कि कौन से स्लाइस का परीक्षण करना है?
हम स्वीकार करते हैं कि बड़ी संख्या में समूह या स्लाइस हैं जो परीक्षण के लिए प्रासंगिक हो सकते हैं, और जब संभव हो, तो हम स्लाइस की विविध और विस्तृत श्रृंखला को काटने और मूल्यांकन करने और फिर गहराई से गोता लगाने की सलाह देते हैं जहां आपको सुधार के अवसर मिलते हैं। यह स्वीकार करना भी महत्वपूर्ण है कि भले ही आपको परीक्षण किए गए स्लाइस पर चिंताएं न दिखें, लेकिन इसका मतलब यह नहीं है कि आपका उत्पाद सभी उपयोगकर्ताओं के लिए काम करता है, और विविध उपयोगकर्ता प्रतिक्रिया और परीक्षण प्राप्त करना यह सुनिश्चित करने के लिए महत्वपूर्ण है कि आप लगातार नए की पहचान कर रहे हैं अवसर।
आरंभ करने के लिए, हम आपके विशेष उपयोग के मामले और उपयोगकर्ताओं द्वारा आपके उत्पाद के साथ जुड़ने के विभिन्न तरीकों पर विचार करने की सलाह देते हैं। अलग-अलग उपयोगकर्ताओं के अनुभव अलग-अलग कैसे हो सकते हैं? आपको जिन स्लाइस का मूल्यांकन करना चाहिए उनके लिए इसका क्या मतलब है? विविध उपयोगकर्ताओं से फीडबैक एकत्र करने से प्राथमिकता देने के लिए संभावित स्लाइस को भी उजागर किया जा सकता है।
मुझे कौन सा मेट्रिक्स चुनना चाहिए?
अपने सिस्टम के लिए मूल्यांकन करने के लिए कौन से मेट्रिक्स का चयन करते समय, इस बात पर विचार करें कि आपके मॉडल का अनुभव कौन करेगा, इसका अनुभव कैसे किया जाएगा, और उस अनुभव के प्रभाव क्या होंगे।
उदाहरण के लिए, आपका मॉडल लोगों को अधिक गरिमा या स्वायत्तता कैसे देता है, या उनकी भावनात्मक, शारीरिक या वित्तीय भलाई पर सकारात्मक प्रभाव कैसे डालता है? इसके विपरीत, आपके मॉडल की भविष्यवाणियाँ लोगों की गरिमा या स्वायत्तता को कैसे कम कर सकती हैं, या उनकी भावनात्मक, शारीरिक या वित्तीय भलाई पर नकारात्मक प्रभाव कैसे डाल सकती हैं?
सामान्य तौर पर, हम अच्छे अभ्यास के रूप में आपके सभी मौजूदा प्रदर्शन मेट्रिक्स में कटौती करने की सलाह देते हैं। यह समझने के लिए कि सीमा विभिन्न समूहों के प्रदर्शन को कैसे प्रभावित कर सकती है , हम कई सीमाओं के आधार पर आपके मेट्रिक्स का मूल्यांकन करने की भी सलाह देते हैं ।
इसके अलावा, यदि कोई अनुमानित लेबल है जो समान रूप से "अच्छा" या "बुरा" है, तो उस दर की रिपोर्टिंग (प्रत्येक उपसमूह के लिए) पर विचार करें जिस पर उस लेबल की भविष्यवाणी की गई है। उदाहरण के लिए, एक "अच्छा" लेबल एक ऐसा लेबल होगा जिसकी भविष्यवाणी किसी व्यक्ति को कुछ संसाधनों तक पहुंच प्रदान करती है, या उन्हें कुछ कार्रवाई करने में सक्षम बनाती है।
वर्गीकरण के लिए महत्वपूर्ण निष्पक्षता मेट्रिक्स
वर्गीकरण मॉडल के बारे में सोचते समय, त्रुटियों के प्रभावों (वास्तविक "जमीनी सच्चाई" लेबल और मॉडल से लेबल के बीच अंतर) के बारे में सोचें। यदि कुछ त्रुटियाँ आपके उपयोगकर्ताओं के लिए अधिक अवसर या हानि उत्पन्न कर सकती हैं, तो सुनिश्चित करें कि आप उपयोगकर्ताओं के समूहों में इन त्रुटियों की दरों का मूल्यांकन करें। इन त्रुटि दरों को वर्तमान में फेयरनेस इंडिकेटर्स बीटा द्वारा समर्थित मेट्रिक्स में नीचे परिभाषित किया गया है।
अगले वर्ष के दौरान, हम विभिन्न उपयोग के मामलों और इनसे जुड़े मेट्रिक्स के केस स्टडीज जारी करने की उम्मीद करते हैं ताकि हम बेहतर ढंग से उजागर कर सकें कि विभिन्न मेट्रिक्स सबसे उपयुक्त कब हो सकते हैं।
निष्पक्षता संकेतकों में आज मेट्रिक्स उपलब्ध हैं
सकारात्मक दर/नकारात्मक दर
- परिभाषा: डेटा बिंदुओं का प्रतिशत जिन्हें सकारात्मक या नकारात्मक के रूप में वर्गीकृत किया गया है, जमीनी सच्चाई से स्वतंत्र है
- संबंधित: जनसांख्यिकीय समानता और परिणामों की समानता, जब उपसमूहों में समान हो
- इस मीट्रिक का उपयोग कब करें: निष्पक्षता उन मामलों का उपयोग करती है जहां समूहों का समान अंतिम प्रतिशत होना महत्वपूर्ण है
सच्ची सकारात्मक दर / गलत नकारात्मक दर
- परिभाषा: सकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें सही ढंग से सकारात्मक के रूप में वर्गीकृत किया गया है, या सकारात्मक डेटा बिंदुओं का प्रतिशत जिन्हें गलत तरीके से नकारात्मक के रूप में वर्गीकृत किया गया है
- संबंधित: अवसर की समानता (सकारात्मक वर्ग के लिए), जब उपसमूहों में समान हो
- इस मीट्रिक का उपयोग कब करें: निष्पक्षता उन मामलों का उपयोग करती है जहां यह महत्वपूर्ण है कि प्रत्येक समूह में समान% योग्य उम्मीदवारों को सकारात्मक रेटिंग दी जाए। सकारात्मक परिणामों को वर्गीकृत करने के मामलों में इसकी सबसे अधिक अनुशंसा की जाती है, जैसे कि ऋण आवेदन, स्कूल प्रवेश, या सामग्री बच्चों के अनुकूल है या नहीं
सच्ची नकारात्मक दर / गलत सकारात्मक दर
- परिभाषा: नकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें सही ढंग से नकारात्मक के रूप में वर्गीकृत किया गया है, या नकारात्मक डेटा बिंदुओं का प्रतिशत जिन्हें गलत तरीके से सकारात्मक के रूप में वर्गीकृत किया गया है
- संबंधित: अवसर की समानता (नकारात्मक वर्ग के लिए), जब उपसमूहों में समान हो
- इस मीट्रिक का उपयोग कब करें: निष्पक्षता उन मामलों का उपयोग करती है जहां त्रुटि दर (या किसी चीज़ को सकारात्मक के रूप में गलत वर्गीकृत करना) सकारात्मक को वर्गीकृत करने की तुलना में अधिक चिंताजनक है। यह दुर्व्यवहार के मामलों में सबसे आम है, जहां सकारात्मक चीजें अक्सर नकारात्मक कार्यों की ओर ले जाती हैं। ये चेहरे का विश्लेषण करने वाली तकनीकों जैसे चेहरे का पता लगाने या चेहरे की विशेषताओं के लिए भी महत्वपूर्ण हैं
सटीकता और एयूसी
- संबंधित: पूर्वानुमानित समता, जब उपसमूहों में समान हो
- इन मेट्रिक्स का उपयोग कब करें: ऐसे मामले जहां कार्य की सटीकता सबसे महत्वपूर्ण है (जरूरी नहीं कि किसी दिए गए दिशा में), जैसे चेहरे की पहचान या चेहरे की क्लस्टरिंग
झूठी खोज दर
- परिभाषा: सकारात्मक के रूप में वर्गीकृत सभी डेटा बिंदुओं में से नकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें गलत तरीके से सकारात्मक के रूप में वर्गीकृत किया गया है। यह पीपीवी का उलटा भी है
- इससे संबंधित है: पूर्वानुमानित समता (जिसे अंशांकन के रूप में भी जाना जाता है), जब उपसमूहों में समान होता है
- इस मीट्रिक का उपयोग कब करें: ऐसे मामले जहां सही सकारात्मक भविष्यवाणियों का अंश उपसमूहों में बराबर होना चाहिए
ग़लत चूक दर
- परिभाषा: नकारात्मक के रूप में वर्गीकृत सभी डेटा बिंदुओं में से सकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें गलत तरीके से नकारात्मक के रूप में वर्गीकृत किया गया है। यह एनपीवी का उलटा भी है
- इससे संबंधित है: पूर्वानुमानित समता (जिसे अंशांकन के रूप में भी जाना जाता है), जब उपसमूहों में समान होता है
- इस मीट्रिक का उपयोग कब करें: ऐसे मामले जहां सही नकारात्मक भविष्यवाणियों का अंश उपसमूहों में बराबर होना चाहिए
समग्र फ़्लिप दर/सकारात्मक से नकारात्मक पूर्वानुमान फ़्लिप दर/नकारात्मक से सकारात्मक पूर्वानुमान फ़्लिप दर
- परिभाषा: यदि किसी दिए गए फीचर में पहचान विशेषता बदल दी गई तो क्लासिफायरियर द्वारा एक अलग भविष्यवाणी देने की संभावना।
- संबंधित: प्रतितथ्यात्मक निष्पक्षता
- इस मीट्रिक का उपयोग कब करें: यह निर्धारित करते समय कि उदाहरण में संदर्भित संवेदनशील विशेषताओं को हटा दिए जाने या प्रतिस्थापित किए जाने पर मॉडल की भविष्यवाणी बदल जाती है या नहीं। यदि ऐसा होता है, तो टेन्सरफ्लो मॉडल रेमेडिएशन लाइब्रेरी के भीतर काउंटरफैक्टुअल लॉगिट पेयरिंग तकनीक का उपयोग करने पर विचार करें।
फ्लिप गणना / सकारात्मक से नकारात्मक भविष्यवाणी फ्लिप गणना / नकारात्मक से सकारात्मक भविष्यवाणी फ्लिप गणना *
- परिभाषा: यदि किसी दिए गए उदाहरण में पहचान शब्द बदल दिया गया तो क्लासिफायरियर कितनी बार एक अलग भविष्यवाणी देता है।
- संबंधित: प्रतितथ्यात्मक निष्पक्षता
- इस मीट्रिक का उपयोग कब करें: यह निर्धारित करते समय कि उदाहरण में संदर्भित संवेदनशील विशेषताओं को हटा दिए जाने या प्रतिस्थापित किए जाने पर मॉडल की भविष्यवाणी बदल जाती है या नहीं। यदि ऐसा होता है, तो टेन्सरफ्लो मॉडल रेमेडिएशन लाइब्रेरी के भीतर काउंटरफैक्टुअल लॉगिट पेयरिंग तकनीक का उपयोग करने पर विचार करें।
कौन से मेट्रिक्स का चयन करना है इसके उदाहरण
- कैमरा ऐप में चेहरों का व्यवस्थित रूप से पता लगाने में विफल रहने से कुछ उपयोगकर्ता समूहों के लिए नकारात्मक उपयोगकर्ता अनुभव हो सकता है। इस मामले में, चेहरे का पता लगाने वाली प्रणाली में गलत नकारात्मक उत्पाद विफलता का कारण बन सकता है, जबकि गलत सकारात्मक (चेहरा न होने पर उसका पता लगाना) उपयोगकर्ता के लिए थोड़ी परेशानी पैदा कर सकता है। इस प्रकार, इस उपयोग के मामले में झूठी नकारात्मक दर का मूल्यांकन और न्यूनतम करना महत्वपूर्ण है।
- मॉडरेशन सिस्टम में कुछ लोगों की टेक्स्ट टिप्पणियों को अनुचित रूप से "स्पैम" या "उच्च विषाक्तता" के रूप में चिह्नित करने से कुछ आवाजें खामोश हो जाती हैं। एक ओर, उच्च झूठी सकारात्मक दर अनुचित सेंसरशिप की ओर ले जाती है। दूसरी ओर, उच्च झूठी नकारात्मक दर से कुछ समूहों में विषाक्त सामग्री का प्रसार हो सकता है, जो उपयोगकर्ता को नुकसान पहुंचा सकता है और उन समूहों के लिए प्रतिनिधित्वात्मक नुकसान का कारण बन सकता है। इस प्रकार, मेट्रिक्स के अलावा, दोनों मेट्रिक्स पर विचार करना महत्वपूर्ण है जो सटीकता या एयूसी जैसी सभी प्रकार की त्रुटियों को ध्यान में रखते हैं।
क्या आप जो मेट्रिक्स खोज रहे हैं वह नहीं दिख रहा?
अपनी स्वयं की कस्टम मीट्रिक जोड़ने के लिए यहां दस्तावेज़ का पालन करें।
अंतिम नोट्स
दो समूहों के बीच मीट्रिक में अंतर इस बात का संकेत हो सकता है कि आपके मॉडल में अनुचित विसंगतियां हो सकती हैं। आपको अपने उपयोग के मामले के अनुसार अपने परिणामों की व्याख्या करनी चाहिए। हालाँकि, पहला संकेत यह है कि आप उपयोगकर्ताओं के एक समूह के साथ गलत व्यवहार कर रहे हैं, जब उपयोगकर्ताओं के उस समूह और आपके समग्र के बीच मेट्रिक्स काफी भिन्न हैं। इन अंतरों को देखते समय विश्वास अंतराल को ध्यान में रखना सुनिश्चित करें। जब आपके पास किसी विशेष स्लाइस में बहुत कम नमूने हों, तो मेट्रिक्स के बीच अंतर सटीक नहीं हो सकता है।
निष्पक्षता संकेतकों पर समूहों में समानता हासिल करने का मतलब यह नहीं है कि मॉडल निष्पक्ष है। सिस्टम अत्यधिक जटिल हैं, और प्रदान किए गए मेट्रिक्स में से एक (या यहां तक कि सभी) पर समानता हासिल करना निष्पक्षता की गारंटी नहीं दे सकता है।
निष्पक्षता मूल्यांकन पूरे विकास प्रक्रिया और लॉन्च के बाद (लॉन्च से एक दिन पहले नहीं) चलाया जाना चाहिए। जिस तरह आपके उत्पाद में सुधार एक सतत प्रक्रिया है और उपयोगकर्ता और बाजार की प्रतिक्रिया के आधार पर समायोजन का विषय है, उसी तरह आपके उत्पाद को निष्पक्ष और न्यायसंगत बनाने के लिए निरंतर ध्यान देने की आवश्यकता है। जैसे-जैसे मॉडल के विभिन्न पहलू बदलते हैं, जैसे प्रशिक्षण डेटा, अन्य मॉडलों से इनपुट, या स्वयं डिज़ाइन, निष्पक्षता मेट्रिक्स बदलने की संभावना है। एक बार "बार साफ़ करना" यह सुनिश्चित करने के लिए पर्याप्त नहीं है कि सभी इंटरैक्टिंग घटक समय के साथ बरकरार रहे हैं।
दुर्लभ, दुर्भावनापूर्ण उदाहरणों के लिए प्रतिकूल परीक्षण किया जाना चाहिए। निष्पक्षता मूल्यांकन का उद्देश्य प्रतिकूल परीक्षण को प्रतिस्थापित करना नहीं है। दुर्लभ, लक्षित उदाहरणों के विरुद्ध अतिरिक्त बचाव महत्वपूर्ण है क्योंकि ये उदाहरण संभवतः प्रशिक्षण या मूल्यांकन डेटा में प्रकट नहीं होंगे।