- विवरण :
सुरक्षा के लिए संवादात्मक एआई मूल्यांकन में विविधता ( DICES ) डेटासेट
मशीन लर्निंग दृष्टिकोण को अक्सर डेटासेट के साथ प्रशिक्षित और मूल्यांकन किया जाता है जिसके लिए सकारात्मक और नकारात्मक उदाहरणों के बीच स्पष्ट अलगाव की आवश्यकता होती है। यह दृष्टिकोण कई कार्यों और सामग्री वस्तुओं में मौजूद प्राकृतिक व्यक्तिपरकता को अत्यधिक सरल बनाता है। यह मानवीय धारणाओं और विचारों में अंतर्निहित विविधता को भी अस्पष्ट करता है। अक्सर वे कार्य जो मनुष्यों में सामग्री और विविधता में भिन्नता को संरक्षित करने का प्रयास करते हैं, काफी महंगे और श्रमसाध्य होते हैं। इस अंतर को भरने और अधिक गहन मॉडल प्रदर्शन विश्लेषण की सुविधा के लिए हम DICES डेटासेट का प्रस्ताव करते हैं - एआई उत्पन्न वार्तालापों की सुरक्षा पर विविध दृष्टिकोण वाला एक अद्वितीय डेटासेट। हम संवादात्मक एआई सिस्टम के सुरक्षा मूल्यांकन के कार्य पर ध्यान केंद्रित करते हैं। DICES डेटासेट में प्रत्येक रेटर के बारे में विस्तृत जनसांख्यिकी जानकारी होती है, आगे के विश्लेषणों के सांख्यिकीय महत्व को सुनिश्चित करने के लिए प्रति वार्तालाप अद्वितीय रेटिंग की अत्यधिक उच्च प्रतिकृति होती है और विभिन्न रेटिंग एकत्रीकरण रणनीतियों की गहन खोज की अनुमति देने के लिए विभिन्न जनसांख्यिकी में वितरण के रूप में रेटर वोटों को एन्कोड किया जाता है।
यह डेटासेट संवादी एआई की सुरक्षा के संदर्भ में भिन्नता, अस्पष्टता और विविधता को देखने और मापने के लिए उपयुक्त है। डेटासेट के साथ मेट्रिक्स के एक सेट का वर्णन करने वाला एक पेपर होता है जो दिखाता है कि रेटर विविधता विभिन्न भौगोलिक क्षेत्रों, जातीय समूहों, आयु समूहों और लिंगों के रेटर की सुरक्षा धारणा को कैसे प्रभावित करती है। DICES डेटासेट का लक्ष्य संवादी AI सिस्टम के सुरक्षा मूल्यांकन के लिए एक साझा बेंचमार्क के रूप में उपयोग करना है।
सामग्री चेतावनी : इस डेटासेट में बातचीत के प्रतिकूल उदाहरण हैं जो आपत्तिजनक हो सकते हैं।
मुखपृष्ठ : https://github.com/google-research-datasets/dices-dataset
स्रोत कोड :
tfds.datasets.dices.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
पासे/350 (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : डेटासेट 350 में 123 अद्वितीय रेटर के विविध रेटर पूल द्वारा रेट किए गए 350 वार्तालाप शामिल हैं। प्रत्येक वार्तालाप को पाँच सुरक्षा शीर्ष-स्तरीय श्रेणियों और वार्तालाप के एक समग्र समझ वाले प्रश्न के साथ मूल्यांकित किया जाता है। मूल्यांकनकर्ताओं की भर्ती लिंग (पुरुष या महिला), नस्ल/जातीयता (श्वेत, काला, लातीनी, एशियाई, बहुजातीय) के आधार पर संतुलित की गई थी और प्रत्येक मूल्यांकनकर्ता ने सभी वस्तुओं का मूल्यांकन किया था। प्रत्येक मूल्यांकनकर्ता ने सभी वार्तालापों का मूल्यांकन किया। प्रत्येक वार्तालाप की 123 अद्वितीय रेटिंग हैं। इस डेटासेट में पंक्तियों की कुल संख्या 43050 है।
डाउनलोड आकार :
29.70 MiB
डेटासेट का आकार :
74.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 43,050 |
- फ़ीचर संरचना :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
Q1_संपूर्ण_बातचीत_मूल्यांकन | क्लास लेबल | int64 | बातचीत की समझ के बारे में रेटिंग। | |
Q2_हानिकारक_सामग्री_खतरनाक_सामग्री | क्लास लेबल | int64 | ||
Q2_नाव_की_हानिकारक_सामग्री_का_अपमान | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_असंवेदनशील | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_चिकित्सा_कानूनी_वित्तीय_या_संबंध_सलाह | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_अश्लील_और_अपवित्र | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_अन्य | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_समग्र | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_व्यक्तिगत_जानकारी | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_विनियमित_वस्तुएँ | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_यौन_विचारोत्तेजक_सामग्री | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_अन्य | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_समग्र | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_लक्ष्यीकरण_विश्वास | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_लक्ष्यीकरण_लिंग_यौन_अभिविन्यास | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_लक्ष्यीकरण_विरासत_विशेषताएँ | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_लक्ष्यीकरण_स्थिति | क्लास लेबल | int64 | ||
Q4_गलत सूचना | क्लास लेबल | int64 | ||
Q5_राजनीतिक_संबद्धता | क्लास लेबल | int64 | ||
Q6_नीति_दिशानिर्देश_निर्माण_अनुमोदन | क्लास लेबल | int64 | ||
Q6_नीति_दिशानिर्देश_अन्य | क्लास लेबल | int64 | ||
Q6_नीति_दिशानिर्देश_समग्र | क्लास लेबल | int64 | ||
Q6_नीति_दिशानिर्देश_ध्रुवीकरण_विषय | क्लास लेबल | int64 | ||
Q_कुल मिलाकर | क्लास लेबल | int64 | ||
उत्तर_समय_एमएस | अदिश | int64 | प्रत्येक सुरक्षा एनोटेशन प्रश्न पर प्रत्येक मूल्यांकनकर्ता द्वारा खर्च किया गया समय। | |
उत्तर_टाइमस्टैम्प | अदिश | int64 | वह समय जब प्रत्येक वार्तालाप को प्रत्येक मूल्यांकनकर्ता द्वारा मूल्यांकित किया गया था। | |
प्रसंग | मूलपाठ | डोरी | अंतिम चैटबॉट प्रतिक्रिया से पहले बातचीत शुरू हो जाती है। | |
नुकसान की डिग्री | क्लास लेबल | int64 | सुरक्षा जोखिम की गंभीरता की हस्तलिखित रेटिंग। | |
हानि_प्रकार | अनुक्रम(क्लासलेबल) | (कोई नहीं,) | int64 | बातचीत के हानिकारक विषय(विषयों) को हाथ से एनोटेट करना। |
पहचान | अदिश | int64 | प्रत्येक पंक्ति के लिए संख्यात्मक पहचानकर्ता, एक ही वार्तालाप के लिए एक ही मूल्यांकनकर्ता द्वारा सभी रेटिंग का प्रतिनिधित्व करता है। | |
आइटम_आईडी | अदिश | int64 | प्रत्येक वार्तालाप के लिए संख्यात्मक पहचानकर्ता. | |
चरण | क्लास लेबल | int64 | तीन अलग-अलग समयावधियों में से एक। | |
मूल्यांकनकर्ता_आयु | क्लास लेबल | int64 | मूल्यांकनकर्ता का आयु समूह. | |
रेटर_एजुकेशन | क्लास लेबल | int64 | रेटर की शिक्षा. | |
मूल्यांकनकर्ता_लिंग | क्लास लेबल | int64 | मूल्यांकनकर्ता का लिंग. | |
रेटर_आईडी | अदिश | int64 | प्रत्येक मूल्यांकनकर्ता के लिए संख्यात्मक पहचानकर्ता। | |
रेटर_रेस | क्लास लेबल | int64 | मूल्यांकनकर्ता की जाति/जातीयता. | |
रेटर_रॉ_रेस | मूलपाठ | डोरी | पांच श्रेणियों में सरलीकरण से पहले, मूल्यांकनकर्ता की स्व-रिपोर्ट की गई कच्ची नस्ल/जातीयता। | |
प्रतिक्रिया | मूलपाठ | डोरी | बातचीत में अंतिम चैटबॉट प्रतिक्रिया। | |
सुरक्षा_सोना | क्लास लेबल | int64 | विशेषज्ञों द्वारा प्रदान किया गया स्वर्ण मानक सुरक्षा लेबल। | |
सुरक्षा_सोना_कारण | मूलपाठ | डोरी | विशेषज्ञों द्वारा प्रदान किए गए सोने के सुरक्षा लेबल के लिए कारण (यदि दिए गए हैं)। |
- उदाहरण ( tfds.as_dataframe ):
पांसे/990
कॉन्फ़िगरेशन विवरण : डेटासेट 990 में 173 अद्वितीय रेटर के विविध रेटर पूल द्वारा मूल्यांकित 990 वार्तालाप शामिल हैं। प्रत्येक वार्तालाप को तीन सुरक्षा शीर्ष-स्तरीय श्रेणियों और एक समग्र वार्तालाप समझ प्रश्न के साथ मूल्यांकित किया जाता है। मूल्यांकनकर्ताओं की भर्ती की गई ताकि प्रत्येक बातचीत के लिए मूल्यांकनकर्ताओं की संख्या लिंग (पुरुष, महिला) और स्थानीय (अमेरिका, भारत) के आधार पर संतुलित हो। प्रत्येक मूल्यांकनकर्ता ने बातचीत के केवल एक नमूने का मूल्यांकन किया। प्रत्येक वार्तालाप की 60-70 अद्वितीय रेटिंग होती हैं। इस डेटासेट में पंक्तियों की कुल संख्या 72103 है।
डाउनलोड आकार :
48.06 MiB
डेटासेट का आकार :
150.38 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 72,103 |
- फ़ीचर संरचना :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
Q1_संपूर्ण_बातचीत_मूल्यांकन | क्लास लेबल | int64 | बातचीत की समझ के बारे में रेटिंग। | |
Q2_हानिकारक_सामग्री_स्पष्ट रूप से_यौन | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_वित्तीय_सलाह | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_लोगों_या_जानवरों_को_नुकसान_पहुंचाती है | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_स्वास्थ्य_और_सुरक्षा_दावे | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_कैसे_करें_हानिकारक_गतिविधियों के बारे में | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_अश्लीलताएं_या_अपवित्रताएं | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_अन्य | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_समग्र | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_व्यक्तिगत_जानकारी | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_हानिकारक_विनियमित_वस्तुओं_को_बढ़ावा_देती_है_या_उसे_उपयोग_में_अनुकूलित_करती_है | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_हिंसा को बढ़ावा देती है या उसकी निंदा करती है | क्लास लेबल | int64 | ||
Q2_हानिकारक_सामग्री_हिंसक_या_गंभीर | क्लास लेबल | int64 | ||
Q3_3_नस्लीय_धार्मिक_या_अन्य_अपशब्द_और_रूढ़िवादी_जो_उपर्युक्त_किसी_विशेषता_के_आधार_पर_नफरत_को_उकसाते_या_बढ़ावा_देते_हैं | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_व्यक्तियों_या_समूहों_को_दुष्ट_भ्रष्ट_या_दुर्भावनापूर्ण | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_नफरत_बढ़ाता है | क्लास लेबल | int64 | ||
Q3_भावनात्मक_रोमांटिक_और_या_यौन_आकर्षण_के_बारे_में_पूर्वाग्रह_अपमान | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_अन्य | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_शारीरिक रूप से_या_मानसिक रूप से_हीन | क्लास लेबल | int64 | ||
Q3_पूर्वाग्रह_अमानवीय_तुलनाएँ | क्लास लेबल | int64 | ||
Q3_एक_समूह का पूर्वाग्रह_श्रेष्ठता_या_वशीकरण_ | क्लास लेबल | int64 | ||
Q3_कुल मिलाकर अनुचित पूर्वाग्रह | क्लास लेबल | int64 | ||
Q4_गलत सूचना_षड्यंत्र_सिद्धांत | क्लास लेबल | int64 | ||
Q4_गलत सूचना_विरोधाभास_विशेषज्ञ_सहमति | क्लास लेबल | int64 | ||
Q4_गलत सूचना_झूठा_सिद्धांत | क्लास लेबल | int64 | ||
Q4_गलत सूचना_अन्य | क्लास लेबल | int64 | ||
Q4_गलत सूचना_कुल मिलाकर | क्लास लेबल | int64 | ||
Q4_गलत सूचना_राजनीतिक | क्लास लेबल | int64 | ||
Q_कुल मिलाकर | क्लास लेबल | int64 | ||
प्रसंग | मूलपाठ | डोरी | अंतिम चैटबॉट प्रतिक्रिया से पहले बातचीत शुरू हो जाती है। | |
नुकसान की डिग्री | क्लास लेबल | int64 | सुरक्षा जोखिम की गंभीरता की हस्तलिखित रेटिंग। | |
हानि_प्रकार | अनुक्रम (क्लास लेबल) | (कोई नहीं,) | int64 | बातचीत के हानिकारक विषय(विषयों) को हाथ से एनोटेट करना। |
पहचान | अदिश | int64 | प्रत्येक पंक्ति के लिए संख्यात्मक पहचानकर्ता, एक ही वार्तालाप के लिए एक ही मूल्यांकनकर्ता द्वारा सभी रेटिंग का प्रतिनिधित्व करता है। | |
आइटम_आईडी | अदिश | int64 | प्रत्येक वार्तालाप के लिए संख्यात्मक पहचानकर्ता. | |
चरण | क्लास लेबल | int64 | तीन अलग-अलग समयावधियों में से एक। | |
मूल्यांकनकर्ता_आयु | क्लास लेबल | int64 | मूल्यांकनकर्ता का आयु समूह. | |
रेटर_एजुकेशन | क्लास लेबल | int64 | रेटर की शिक्षा. | |
मूल्यांकनकर्ता_लिंग | क्लास लेबल | int64 | मूल्यांकनकर्ता का लिंग. | |
रेटर_आईडी | अदिश | int64 | प्रत्येक मूल्यांकनकर्ता के लिए संख्यात्मक पहचानकर्ता। | |
रेटर_लोकेल | क्लास लेबल | int64 | मूल्यांकनकर्ता का स्थान. | |
रेटर_रेस | क्लास लेबल | int64 | मूल्यांकनकर्ता की जाति/जातीयता. | |
रेटर_रॉ_रेस | मूलपाठ | डोरी | पांच श्रेणियों में सरलीकरण से पहले, मूल्यांकनकर्ता की स्व-रिपोर्ट की गई कच्ची नस्ल/जातीयता। | |
प्रतिक्रिया | मूलपाठ | डोरी | बातचीत में अंतिम चैटबॉट प्रतिक्रिया। |
- उदाहरण ( tfds.as_dataframe ):