पांसे

  • विवरण :

सुरक्षा के लिए संवादात्मक एआई मूल्यांकन में विविधता ( DICES ) डेटासेट

मशीन लर्निंग दृष्टिकोण को अक्सर डेटासेट के साथ प्रशिक्षित और मूल्यांकन किया जाता है जिसके लिए सकारात्मक और नकारात्मक उदाहरणों के बीच स्पष्ट अलगाव की आवश्यकता होती है। यह दृष्टिकोण कई कार्यों और सामग्री वस्तुओं में मौजूद प्राकृतिक व्यक्तिपरकता को अत्यधिक सरल बनाता है। यह मानवीय धारणाओं और विचारों में अंतर्निहित विविधता को भी अस्पष्ट करता है। अक्सर वे कार्य जो मनुष्यों में सामग्री और विविधता में भिन्नता को संरक्षित करने का प्रयास करते हैं, काफी महंगे और श्रमसाध्य होते हैं। इस अंतर को भरने और अधिक गहन मॉडल प्रदर्शन विश्लेषण की सुविधा के लिए हम DICES डेटासेट का प्रस्ताव करते हैं - एआई उत्पन्न वार्तालापों की सुरक्षा पर विविध दृष्टिकोण वाला एक अद्वितीय डेटासेट। हम संवादात्मक एआई सिस्टम के सुरक्षा मूल्यांकन के कार्य पर ध्यान केंद्रित करते हैं। DICES डेटासेट में प्रत्येक रेटर के बारे में विस्तृत जनसांख्यिकी जानकारी होती है, आगे के विश्लेषणों के सांख्यिकीय महत्व को सुनिश्चित करने के लिए प्रति वार्तालाप अद्वितीय रेटिंग की अत्यधिक उच्च प्रतिकृति होती है और विभिन्न रेटिंग एकत्रीकरण रणनीतियों की गहन खोज की अनुमति देने के लिए विभिन्न जनसांख्यिकी में वितरण के रूप में रेटर वोटों को एन्कोड किया जाता है।

यह डेटासेट संवादी एआई की सुरक्षा के संदर्भ में भिन्नता, अस्पष्टता और विविधता को देखने और मापने के लिए उपयुक्त है। डेटासेट के साथ मेट्रिक्स के एक सेट का वर्णन करने वाला एक पेपर होता है जो दिखाता है कि रेटर विविधता विभिन्न भौगोलिक क्षेत्रों, जातीय समूहों, आयु समूहों और लिंगों के रेटर की सुरक्षा धारणा को कैसे प्रभावित करती है। DICES डेटासेट का लक्ष्य संवादी AI सिस्टम के सुरक्षा मूल्यांकन के लिए एक साझा बेंचमार्क के रूप में उपयोग करना है।

सामग्री चेतावनी : इस डेटासेट में बातचीत के प्रतिकूल उदाहरण हैं जो आपत्तिजनक हो सकते हैं।

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

पासे/350 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : डेटासेट 350 में 123 अद्वितीय रेटर के विविध रेटर पूल द्वारा रेट किए गए 350 वार्तालाप शामिल हैं। प्रत्येक वार्तालाप को पाँच सुरक्षा शीर्ष-स्तरीय श्रेणियों और वार्तालाप के एक समग्र समझ वाले प्रश्न के साथ मूल्यांकित किया जाता है। मूल्यांकनकर्ताओं की भर्ती लिंग (पुरुष या महिला), नस्ल/जातीयता (श्वेत, काला, लातीनी, एशियाई, बहुजातीय) के आधार पर संतुलित की गई थी और प्रत्येक मूल्यांकनकर्ता ने सभी वस्तुओं का मूल्यांकन किया था। प्रत्येक मूल्यांकनकर्ता ने सभी वार्तालापों का मूल्यांकन किया। प्रत्येक वार्तालाप की 123 अद्वितीय रेटिंग हैं। इस डेटासेट में पंक्तियों की कुल संख्या 43050 है।

  • डाउनलोड आकार : 29.70 MiB

  • डेटासेट का आकार : 74.43 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 43,050
  • फ़ीचर संरचना :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
Q1_संपूर्ण_बातचीत_मूल्यांकन क्लास लेबल int64 बातचीत की समझ के बारे में रेटिंग।
Q2_हानिकारक_सामग्री_खतरनाक_सामग्री क्लास लेबल int64
Q2_नाव_की_हानिकारक_सामग्री_का_अपमान क्लास लेबल int64
Q2_हानिकारक_सामग्री_असंवेदनशील क्लास लेबल int64
Q2_हानिकारक_सामग्री_चिकित्सा_कानूनी_वित्तीय_या_संबंध_सलाह क्लास लेबल int64
Q2_हानिकारक_सामग्री_अश्लील_और_अपवित्र क्लास लेबल int64
Q2_हानिकारक_सामग्री_अन्य क्लास लेबल int64
Q2_हानिकारक_सामग्री_समग्र क्लास लेबल int64
Q2_हानिकारक_सामग्री_व्यक्तिगत_जानकारी क्लास लेबल int64
Q2_हानिकारक_सामग्री_विनियमित_वस्तुएँ क्लास लेबल int64
Q2_हानिकारक_सामग्री_यौन_विचारोत्तेजक_सामग्री क्लास लेबल int64
Q3_पूर्वाग्रह_अन्य क्लास लेबल int64
Q3_पूर्वाग्रह_समग्र क्लास लेबल int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_विश्वास क्लास लेबल int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_लिंग_यौन_अभिविन्यास क्लास लेबल int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_विरासत_विशेषताएँ क्लास लेबल int64
Q3_पूर्वाग्रह_लक्ष्यीकरण_स्थिति क्लास लेबल int64
Q4_गलत सूचना क्लास लेबल int64
Q5_राजनीतिक_संबद्धता क्लास लेबल int64
Q6_नीति_दिशानिर्देश_निर्माण_अनुमोदन क्लास लेबल int64
Q6_नीति_दिशानिर्देश_अन्य क्लास लेबल int64
Q6_नीति_दिशानिर्देश_समग्र क्लास लेबल int64
Q6_नीति_दिशानिर्देश_ध्रुवीकरण_विषय क्लास लेबल int64
Q_कुल मिलाकर क्लास लेबल int64
उत्तर_समय_एमएस अदिश int64 प्रत्येक सुरक्षा एनोटेशन प्रश्न पर प्रत्येक मूल्यांकनकर्ता द्वारा खर्च किया गया समय।
उत्तर_टाइमस्टैम्प अदिश int64 वह समय जब प्रत्येक वार्तालाप को प्रत्येक मूल्यांकनकर्ता द्वारा मूल्यांकित किया गया था।
प्रसंग मूलपाठ डोरी अंतिम चैटबॉट प्रतिक्रिया से पहले बातचीत शुरू हो जाती है।
नुकसान की डिग्री क्लास लेबल int64 सुरक्षा जोखिम की गंभीरता की हस्तलिखित रेटिंग।
हानि_प्रकार अनुक्रम(क्लासलेबल) (कोई नहीं,) int64 बातचीत के हानिकारक विषय(विषयों) को हाथ से एनोटेट करना।
पहचान अदिश int64 प्रत्येक पंक्ति के लिए संख्यात्मक पहचानकर्ता, एक ही वार्तालाप के लिए एक ही मूल्यांकनकर्ता द्वारा सभी रेटिंग का प्रतिनिधित्व करता है।
आइटम_आईडी अदिश int64 प्रत्येक वार्तालाप के लिए संख्यात्मक पहचानकर्ता.
चरण क्लास लेबल int64 तीन अलग-अलग समयावधियों में से एक।
मूल्यांकनकर्ता_आयु क्लास लेबल int64 मूल्यांकनकर्ता का आयु समूह.
रेटर_एजुकेशन क्लास लेबल int64 रेटर की शिक्षा.
मूल्यांकनकर्ता_लिंग क्लास लेबल int64 मूल्यांकनकर्ता का लिंग.
रेटर_आईडी अदिश int64 प्रत्येक मूल्यांकनकर्ता के लिए संख्यात्मक पहचानकर्ता।
रेटर_रेस क्लास लेबल int64 मूल्यांकनकर्ता की जाति/जातीयता.
रेटर_रॉ_रेस मूलपाठ डोरी पांच श्रेणियों में सरलीकरण से पहले, मूल्यांकनकर्ता की स्व-रिपोर्ट की गई कच्ची नस्ल/जातीयता।
प्रतिक्रिया मूलपाठ डोरी बातचीत में अंतिम चैटबॉट प्रतिक्रिया।
सुरक्षा_सोना क्लास लेबल int64 विशेषज्ञों द्वारा प्रदान किया गया स्वर्ण मानक सुरक्षा लेबल।
सुरक्षा_सोना_कारण मूलपाठ डोरी विशेषज्ञों द्वारा प्रदान किए गए सोने के सुरक्षा लेबल के लिए कारण (यदि दिए गए हैं)।

पांसे/990

  • कॉन्फ़िगरेशन विवरण : डेटासेट 990 में 173 अद्वितीय रेटर के विविध रेटर पूल द्वारा मूल्यांकित 990 वार्तालाप शामिल हैं। प्रत्येक वार्तालाप को तीन सुरक्षा शीर्ष-स्तरीय श्रेणियों और एक समग्र वार्तालाप समझ प्रश्न के साथ मूल्यांकित किया जाता है। मूल्यांकनकर्ताओं की भर्ती की गई ताकि प्रत्येक बातचीत के लिए मूल्यांकनकर्ताओं की संख्या लिंग (पुरुष, महिला) और स्थानीय (अमेरिका, भारत) के आधार पर संतुलित हो। प्रत्येक मूल्यांकनकर्ता ने बातचीत के केवल एक नमूने का मूल्यांकन किया। प्रत्येक वार्तालाप की 60-70 अद्वितीय रेटिंग होती हैं। इस डेटासेट में पंक्तियों की कुल संख्या 72103 है।

  • डाउनलोड आकार : 48.06 MiB

  • डेटासेट का आकार : 150.38 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल तभी जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'train' 72,103
  • फ़ीचर संरचना :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
Q1_संपूर्ण_बातचीत_मूल्यांकन क्लास लेबल int64 बातचीत की समझ के बारे में रेटिंग।
Q2_हानिकारक_सामग्री_स्पष्ट रूप से_यौन क्लास लेबल int64
Q2_हानिकारक_सामग्री_वित्तीय_सलाह क्लास लेबल int64
Q2_हानिकारक_सामग्री_लोगों_या_जानवरों_को_नुकसान_पहुंचाती है क्लास लेबल int64
Q2_हानिकारक_सामग्री_स्वास्थ्य_और_सुरक्षा_दावे क्लास लेबल int64
Q2_हानिकारक_सामग्री_कैसे_करें_हानिकारक_गतिविधियों के बारे में क्लास लेबल int64
Q2_हानिकारक_सामग्री_अश्लीलताएं_या_अपवित्रताएं क्लास लेबल int64
Q2_हानिकारक_सामग्री_अन्य क्लास लेबल int64
Q2_हानिकारक_सामग्री_समग्र क्लास लेबल int64
Q2_हानिकारक_सामग्री_व्यक्तिगत_जानकारी क्लास लेबल int64
Q2_हानिकारक_सामग्री_हानिकारक_विनियमित_वस्तुओं_को_बढ़ावा_देती_है_या_उसे_उपयोग_में_अनुकूलित_करती_है क्लास लेबल int64
Q2_हानिकारक_सामग्री_हिंसा को बढ़ावा देती है या उसकी निंदा करती है क्लास लेबल int64
Q2_हानिकारक_सामग्री_हिंसक_या_गंभीर क्लास लेबल int64
Q3_3_नस्लीय_धार्मिक_या_अन्य_अपशब्द_और_रूढ़िवादी_जो_उपर्युक्त_किसी_विशेषता_के_आधार_पर_नफरत_को_उकसाते_या_बढ़ावा_देते_हैं क्लास लेबल int64
Q3_पूर्वाग्रह_व्यक्तियों_या_समूहों_को_दुष्ट_भ्रष्ट_या_दुर्भावनापूर्ण क्लास लेबल int64
Q3_पूर्वाग्रह_नफरत_बढ़ाता है क्लास लेबल int64
Q3_भावनात्मक_रोमांटिक_और_या_यौन_आकर्षण_के_बारे_में_पूर्वाग्रह_अपमान क्लास लेबल int64
Q3_पूर्वाग्रह_अन्य क्लास लेबल int64
Q3_पूर्वाग्रह_शारीरिक रूप से_या_मानसिक रूप से_हीन क्लास लेबल int64
Q3_पूर्वाग्रह_अमानवीय_तुलनाएँ क्लास लेबल int64
Q3_एक_समूह का पूर्वाग्रह_श्रेष्ठता_या_वशीकरण_ क्लास लेबल int64
Q3_कुल मिलाकर अनुचित पूर्वाग्रह क्लास लेबल int64
Q4_गलत सूचना_षड्यंत्र_सिद्धांत क्लास लेबल int64
Q4_गलत सूचना_विरोधाभास_विशेषज्ञ_सहमति क्लास लेबल int64
Q4_गलत सूचना_झूठा_सिद्धांत क्लास लेबल int64
Q4_गलत सूचना_अन्य क्लास लेबल int64
Q4_गलत सूचना_कुल मिलाकर क्लास लेबल int64
Q4_गलत सूचना_राजनीतिक क्लास लेबल int64
Q_कुल मिलाकर क्लास लेबल int64
प्रसंग मूलपाठ डोरी अंतिम चैटबॉट प्रतिक्रिया से पहले बातचीत शुरू हो जाती है।
नुकसान की डिग्री क्लास लेबल int64 सुरक्षा जोखिम की गंभीरता की हस्तलिखित रेटिंग।
हानि_प्रकार अनुक्रम (क्लास लेबल) (कोई नहीं,) int64 बातचीत के हानिकारक विषय(विषयों) को हाथ से एनोटेट करना।
पहचान अदिश int64 प्रत्येक पंक्ति के लिए संख्यात्मक पहचानकर्ता, एक ही वार्तालाप के लिए एक ही मूल्यांकनकर्ता द्वारा सभी रेटिंग का प्रतिनिधित्व करता है।
आइटम_आईडी अदिश int64 प्रत्येक वार्तालाप के लिए संख्यात्मक पहचानकर्ता.
चरण क्लास लेबल int64 तीन अलग-अलग समयावधियों में से एक।
मूल्यांकनकर्ता_आयु क्लास लेबल int64 मूल्यांकनकर्ता का आयु समूह.
रेटर_एजुकेशन क्लास लेबल int64 रेटर की शिक्षा.
मूल्यांकनकर्ता_लिंग क्लास लेबल int64 मूल्यांकनकर्ता का लिंग.
रेटर_आईडी अदिश int64 प्रत्येक मूल्यांकनकर्ता के लिए संख्यात्मक पहचानकर्ता।
रेटर_लोकेल क्लास लेबल int64 मूल्यांकनकर्ता का स्थान.
रेटर_रेस क्लास लेबल int64 मूल्यांकनकर्ता की जाति/जातीयता.
रेटर_रॉ_रेस मूलपाठ डोरी पांच श्रेणियों में सरलीकरण से पहले, मूल्यांकनकर्ता की स्व-रिपोर्ट की गई कच्ची नस्ल/जातीयता।
प्रतिक्रिया मूलपाठ डोरी बातचीत में अंतिम चैटबॉट प्रतिक्रिया।