dés

  • Description :

L'ensemble de données sur la diversité dans l'évaluation de la sécurité de l'IA conversationnelle ( DICES )

Les approches d'apprentissage automatique sont souvent formées et évaluées avec des ensembles de données qui nécessitent une séparation claire entre les exemples positifs et négatifs. Cette approche simplifie à l'excès la subjectivité naturelle présente dans de nombreuses tâches et éléments de contenu. Cela obscurcit également la diversité inhérente aux perceptions et opinions humaines. Souvent, les tâches qui tentent de préserver la variance du contenu et la diversité chez les humains sont assez coûteuses et laborieuses. Pour combler cette lacune et faciliter des analyses plus approfondies des performances des modèles, nous proposons l'ensemble de données DICES - un ensemble de données unique avec diverses perspectives sur la sécurité des conversations générées par l'IA. Nous nous concentrons sur la tâche d’évaluation de la sécurité des systèmes d’IA conversationnelle. L'ensemble de données DICES contient des informations démographiques détaillées sur chaque évaluateur, une réplication extrêmement élevée des notes uniques par conversation pour garantir la signification statistique des analyses ultérieures et code les votes des évaluateurs sous forme de distributions sur différentes données démographiques pour permettre des explorations approfondies de différentes stratégies d'agrégation de notes.

Cet ensemble de données est bien adapté pour observer et mesurer la variance, l'ambiguïté et la diversité dans le contexte de la sécurité de l'IA conversationnelle. L'ensemble de données est accompagné d'un article décrivant un ensemble de mesures qui montrent comment la diversité des évaluateurs influence la perception de sécurité des évaluateurs de différentes régions géographiques, groupes ethniques, groupes d'âge et sexes. L’objectif de l’ensemble de données DICES est d’être utilisé comme référence partagée pour l’évaluation de la sécurité des systèmes d’IA conversationnelle.

AVERTISSEMENT DE CONTENU : cet ensemble de données contient des exemples contradictoires de conversations pouvant être offensantes.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dés/350 (configuration par défaut)

  • Description de la configuration : L'ensemble de données 350 contient 350 conversations évaluées par un pool d'évaluateurs diversifié de 123 évaluateurs uniques. Chaque conversation est notée selon cinq catégories de sécurité de premier niveau et une question de compréhension globale de la conversation. Les évaluateurs ont été recrutés de manière équilibrée par sexe (homme ou femme), race/origine ethnique (blanc, noir, latin, asiatique, multiracial) et chaque évaluateur a évalué tous les éléments. Chaque évaluateur a évalué toutes les conversations. Chaque conversation comporte 123 évaluations uniques. Le nombre total de lignes dans cet ensemble de données est de 43 050.

  • Taille du téléchargement : 29.70 MiB

  • Taille de l'ensemble de données : 74.43 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 43 050
  • Structure des fonctionnalités :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
Q1_whole_conversation_evaluation Étiquette de classe int64 Évaluation de la compréhensibilité d'une conversation.
Q2_harmful_content_dangerous_content Étiquette de classe int64
Q2_harmful_content_derogation_of_boat Étiquette de classe int64
T2_harmful_content_insensitive Étiquette de classe int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice Étiquette de classe int64
Q2_harmful_content_obscene_and_profane Étiquette de classe int64
Q2_harmful_content_other Étiquette de classe int64
Q2_harmful_content_overall Étiquette de classe int64
Q2_harmful_content_personal_information Étiquette de classe int64
Q2_harmful_content_regulated_goods Étiquette de classe int64
Q2_harmful_content_sexually_suggestive_content Étiquette de classe int64
Q3_bias_other Étiquette de classe int64
Q3_bias_overall Étiquette de classe int64
Q3_bias_targeting_beliefs Étiquette de classe int64
Q3_bias_targeting_gender_sexual_orientation Étiquette de classe int64
Q3_bias_targeting_inherited_attributes Étiquette de classe int64
Q3_bias_targeting_status Étiquette de classe int64
Q4_désinformation Étiquette de classe int64
Q5_politique_affiliation Étiquette de classe int64
Q6_policy_guidelines_making_endorsement Étiquette de classe int64
Q6_policy_guidelines_other Étiquette de classe int64
Q6_policy_guidelines_overall Étiquette de classe int64
Q6_policy_guidelines_polarizing_topics Étiquette de classe int64
Q_global Étiquette de classe int64
réponse_time_ms Scalaire int64 Temps passé par chaque évaluateur sur chaque question d'annotation de sécurité.
réponse_horodatage Scalaire int64 Heure à laquelle chaque conversation a été évaluée par chaque évaluateur.
contexte Texte chaîne La conversation tourne avant la réponse finale du chatbot.
degré_de_préjudice Étiquette de classe int64 Évaluation annotée à la main de la gravité du risque de sécurité.
type_harcèlement Séquence (ClassLabel) (Aucun,) int64 Sujet(s) de conversation préjudiciable annoté à la main.
identifiant Scalaire int64 Identificateur numérique pour chaque ligne, représentant toutes les évaluations d'un seul évaluateur pour une seule conversation.
article_id Scalaire int64 Identifiant numérique pour chaque conversation.
phase Étiquette de classe int64 Une des trois périodes distinctes.
évaluateur_age Étiquette de classe int64 La tranche d’âge de l’évaluateur.
évaluateur_éducation Étiquette de classe int64 La formation de l'évaluateur.
évaluateur_genre Étiquette de classe int64 Le sexe de l'évaluateur.
évaluateur_id Scalaire int64 Identifiant numérique pour chaque évaluateur.
évaluateur_race Étiquette de classe int64 La race/origine ethnique de l'évaluateur.
rater_raw_race Texte chaîne La race/origine ethnique brute autodéclarée par l'évaluateur, avant simplification en cinq catégories.
réponse Texte chaîne La réponse finale du chatbot dans la conversation.
sécurité_or Étiquette de classe int64 Le label de sécurité de référence fourni par des experts.
sécurité_gold_reason Texte chaîne La ou les raisons (si elles sont données) du label de sécurité or fournies par des experts.

dés/990

  • Description de la configuration : L'ensemble de données 990 contient 990 conversations évaluées par un pool d'évaluateurs diversifié de 173 évaluateurs uniques. Chaque conversation est évaluée selon trois catégories de sécurité de premier niveau et une question globale de compréhension de la conversation. Les évaluateurs ont été recrutés de manière à ce que le nombre d'évaluateurs pour chaque conversation soit équilibré par sexe (homme, femme) et lieu (États-Unis, Inde). Chaque évaluateur n’a évalué qu’un échantillon de la conversation. Chaque conversation comporte 60 à 70 évaluations uniques. Le nombre total de lignes dans cet ensemble de données est de 72 103.

  • Taille du téléchargement : 48.06 MiB

  • Taille de l'ensemble de données : 150.38 MiB

  • Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)

  • Divisions :

Diviser Exemples
'train' 72 103
  • Structure des fonctionnalités :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
Q1_whole_conversation_evaluation Étiquette de classe int64 Évaluation de la compréhensibilité d'une conversation.
Q2_harmful_content_explicitly_sexual Étiquette de classe int64
T2_harmful_content_financial_advice Étiquette de classe int64
Q2_harmful_content_harm_to_people_or_animals Étiquette de classe int64
Q2_harmful_content_health_and_safety_claims Étiquette de classe int64
Q2_harmful_content_how_tos_about_harmful_activities Étiquette de classe int64
Q2_harmful_content_obscenities_or_profanities Étiquette de classe int64
Q2_harmful_content_other Étiquette de classe int64
Q2_harmful_content_overall Étiquette de classe int64
Q2_harmful_content_personal_information Étiquette de classe int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods Étiquette de classe int64
Q2_harmful_content_promotes_or_condones_violence Étiquette de classe int64
Q2_harmful_content_violent_or_gory Étiquette de classe int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above Étiquette de classe int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious Étiquette de classe int64
Q3_bias_incites_hatred Étiquette de classe int64
Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction Étiquette de classe int64
Q3_bias_other Étiquette de classe int64
Q3_bias_physically_or_mentally_inferior Étiquette de classe int64
Q3_bias_subhuman_comparisons Étiquette de classe int64
Q3_bias_superiority_or_subjugation_of_a_group Étiquette de classe int64
T3_unfair_bias_overall Étiquette de classe int64
T4_misinformation_conspiracy_theories Étiquette de classe int64
T4_misinformation_contradicts_expert_consensus Étiquette de classe int64
Q4_misinformation_false_theories Étiquette de classe int64
T4_misinformation_other Étiquette de classe int64
T4_misinformation_overall Étiquette de classe int64
T4_misinformation_politique Étiquette de classe int64
Q_global Étiquette de classe int64
contexte Texte chaîne La conversation tourne avant la réponse finale du chatbot.
degré_de_préjudice Étiquette de classe int64 Évaluation annotée à la main de la gravité du risque de sécurité.
type_harcèlement Séquence (ClassLabel) (Aucun,) int64 Sujet(s) de conversation préjudiciable annoté à la main.
identifiant Scalaire int64 Identificateur numérique pour chaque ligne, représentant toutes les évaluations d'un seul évaluateur pour une seule conversation.
article_id Scalaire int64 Identifiant numérique pour chaque conversation.
phase Étiquette de classe int64 Une des trois périodes distinctes.
évaluateur_age Étiquette de classe int64 La tranche d’âge de l’évaluateur.
évaluateur_éducation Étiquette de classe int64 La formation de l'évaluateur.
évaluateur_genre Étiquette de classe int64 Le sexe de l'évaluateur.
évaluateur_id Scalaire int64 Identifiant numérique pour chaque évaluateur.
évaluateur_locale Étiquette de classe int64 Paramètres régionaux de l'évaluateur.
évaluateur_race Étiquette de classe int64 La race/origine ethnique de l'évaluateur.
rater_raw_race Texte chaîne La race/origine ethnique brute autodéclarée par l'évaluateur, avant simplification en cinq catégories.
réponse Texte chaîne La réponse finale du chatbot dans la conversation.