- Descrizione :
Il set di dati Diversity in Conversational AI Evaluation for Safety ( DICES ).
Gli approcci al machine learning vengono spesso addestrati e valutati con set di dati che richiedono una chiara separazione tra esempi positivi e negativi. Questo approccio semplifica eccessivamente la naturale soggettività presente in molti compiti e contenuti. Inoltre oscura la diversità intrinseca nelle percezioni e nelle opinioni umane. Spesso i compiti che tentano di preservare la varianza dei contenuti e la diversità negli esseri umani sono piuttosto costosi e laboriosi. Per colmare questa lacuna e facilitare analisi più approfondite delle prestazioni del modello, proponiamo il set di dati DICES, un set di dati unico con diverse prospettive sulla sicurezza delle conversazioni generate dall'intelligenza artificiale. Ci concentriamo sul compito di valutazione della sicurezza dei sistemi di intelligenza artificiale conversazionale. Il set di dati DICES contiene informazioni demografiche dettagliate su ciascun valutatore, una replica estremamente elevata di valutazioni uniche per conversazione per garantire la significatività statistica di ulteriori analisi e codifica i voti dei valutatori come distribuzioni tra diversi dati demografici per consentire esplorazioni approfondite di diverse strategie di aggregazione delle valutazioni.
Questo set di dati è particolarmente adatto per osservare e misurare la varianza, l'ambiguità e la diversità nel contesto della sicurezza dell'IA conversazionale. Il set di dati è accompagnato da un documento che descrive una serie di parametri che mostrano come la diversità dei valutatori influenza la percezione di sicurezza dei valutatori provenienti da diverse regioni geografiche, gruppi etnici, fasce di età e generi. L’obiettivo del set di dati DICES è quello di essere utilizzato come punto di riferimento condiviso per la valutazione della sicurezza dei sistemi di intelligenza artificiale conversazionale.
AVVISO SUL CONTENUTO : questo set di dati contiene esempi contraddittori di conversazioni che potrebbero essere offensive.
Home page : https://github.com/google-research-datasets/dices-dataset
Codice sorgente :
tfds.datasets.dices.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
dices/350 (configurazione predefinita)
Descrizione della configurazione : il set di dati 350 contiene 350 conversazioni valutate da un pool di valutatori diversificato di 123 valutatori unici. Ogni conversazione viene valutata con cinque categorie di sicurezza di primo livello e una domanda di comprensione generale della conversazione. I valutatori reclutati erano bilanciati per genere (uomo o donna), razza/etnia (bianco, nero, latino, asiatico, multirazziale) e ciascun valutatore ha valutato tutti gli elementi. Ciascun valutatore ha valutato tutte le conversazioni. Ogni conversazione ha 123 valutazioni uniche. Il numero totale di righe in questo set di dati è 43050.
Dimensione download :
29.70 MiB
Dimensione del set di dati :
74.43 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'train' | 43.050 |
- Struttura delle caratteristiche :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
Q1_valutazione_intera_conversazione | ClassLabel | int64 | Valutazione sulla comprensibilità di una conversazione. | |
Q2_contenuti_dannosi_contenuti_pericolosi | ClassLabel | int64 | ||
Q2_contenuto_dannoso_derogazione_della_barca | ClassLabel | int64 | ||
Q2_dannoso_contenuto_insensibile | ClassLabel | int64 | ||
Q2_contenuti_dannosi_consigli_medico_legali_finanziari_o_relazionali | ClassLabel | int64 | ||
Q2_contenuto_dannoso_osceno_e_profano | ClassLabel | int64 | ||
Q2_contenuti_dannosi_altro | ClassLabel | int64 | ||
Q2_contenuti_dannosi_nel complesso | ClassLabel | int64 | ||
Q2_contenuti_dannosi_informazioni_personali | ClassLabel | int64 | ||
Q2_contenuto_dannoso_merci_regolamentate | ClassLabel | int64 | ||
Q2_contenuti_dannosi_contenuti_sessualmente_suggestivi | ClassLabel | int64 | ||
Q3_bias_altro | ClassLabel | int64 | ||
Q3_bias_complessivo | ClassLabel | int64 | ||
Q3_bias_targeting_beliefs | ClassLabel | int64 | ||
Q3_bias_targeting_gender_sessuale_orientamento | ClassLabel | int64 | ||
Q3_bias_targeting_inherited_attributes | ClassLabel | int64 | ||
Q3_bias_targeting_status | ClassLabel | int64 | ||
Q4_disinformazione | ClassLabel | int64 | ||
Q5_affiliazione_politica | ClassLabel | int64 | ||
Q6_policy_guidelines_making_endorsement | ClassLabel | int64 | ||
Q6_policy_guidelines_other | ClassLabel | int64 | ||
Q6_policy_guidelines_overall | ClassLabel | int64 | ||
Q6_policy_guidelines_polarizing_topics | ClassLabel | int64 | ||
Q_nel complesso | ClassLabel | int64 | ||
risposta_ora_ms | Scalare | int64 | Quantità di tempo trascorso da ciascun valutatore su ciascuna domanda di annotazione di sicurezza. | |
risposta_timestamp | Scalare | int64 | Ora in cui ogni conversazione è stata valutata da ciascun valutatore. | |
contesto | Testo | corda | La conversazione si svolge prima della risposta finale del chatbot. | |
grado_di_danno | ClassLabel | int64 | Valutazione annotata manualmente della gravità del rischio per la sicurezza. | |
tipo_danno | Sequenza(ClassLabel) | (Nessuno,) | int64 | Argomenti di conversazione sui danni annotati manualmente. |
id | Scalare | int64 | Identificatore numerico per ogni riga, che rappresenta tutte le valutazioni di un singolo valutatore per una singola conversazione. | |
articolo_id | Scalare | int64 | Identificatore numerico per ogni conversazione. | |
fase | ClassLabel | int64 | Uno dei tre periodi di tempo distinti. | |
rater_age | ClassLabel | int64 | La fascia di età del valutatore. | |
rater_education | ClassLabel | int64 | L'educazione del valutatore. | |
rater_gender | ClassLabel | int64 | Il genere del valutatore. | |
rater_id | Scalare | int64 | Identificatore numerico per ciascun valutatore. | |
rater_race | ClassLabel | int64 | La razza/etnia del valutatore. | |
rater_raw_race | Testo | corda | La razza/etnia grezza auto-riferita del valutatore, prima della semplificazione in cinque categorie. | |
risposta | Testo | corda | La risposta finale del chatbot nella conversazione. | |
safety_gold | ClassLabel | int64 | L'etichetta di sicurezza standard di riferimento fornita dagli esperti. | |
safety_gold_reason | Testo | corda | I motivi (se forniti) dell'etichetta di sicurezza Gold forniti da esperti. |
- Esempi ( tfds.as_dataframe ):
dadi/990
Descrizione della configurazione : il set di dati 990 contiene 990 conversazioni valutate da un pool di valutatori diversificato di 173 valutatori unici. Ogni conversazione viene valutata con tre categorie di sicurezza di primo livello e una domanda generale sulla comprensione della conversazione. I valutatori sono stati reclutati in modo che il numero di valutatori per ciascuna conversazione fosse bilanciato in base al genere (uomo, donna) e al luogo (Stati Uniti, India). Ciascun valutatore ha valutato solo un campione della conversazione. Ogni conversazione ha 60-70 valutazioni uniche. Il numero totale di righe in questo set di dati è 72103.
Dimensione download :
48.06 MiB
Dimensione del set di dati :
150.38 MiB
Memorizzato automaticamente nella cache ( documentazione ): solo quando
shuffle_files=False
(train)Divide :
Diviso | Esempi |
---|---|
'train' | 72.103 |
- Struttura delle caratteristiche :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
Q1_valutazione_intera_conversazione | ClassLabel | int64 | Valutazione sulla comprensibilità di una conversazione. | |
Q2_contenuti_dannosi_esplicitamente_sessuali | ClassLabel | int64 | ||
Q2_contenuti_dannosi_consigli_finanziari | ClassLabel | int64 | ||
Q2_contenuti_dannosi_danno_a_persone_o_animali | ClassLabel | int64 | ||
Q2_harmful_content_health_and_safety_claims | ClassLabel | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | ClassLabel | int64 | ||
Q2_contenuti_dannosi_oscenità_o_profanità | ClassLabel | int64 | ||
Q2_contenuti_dannosi_altro | ClassLabel | int64 | ||
Q2_contenuti_dannosi_nel complesso | ClassLabel | int64 | ||
Q2_contenuti_dannosi_informazioni_personali | ClassLabel | int64 | ||
Q2_contenuto_dannoso_promuove_o_condona_l'uso_di_beni_nocivi_regolamentati | ClassLabel | int64 | ||
Q2_harmful_content_promuove_o_condona_la_violenza | ClassLabel | int64 | ||
Q2_harmful_content_violent_or_gory | ClassLabel | int64 | ||
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above | ClassLabel | int64 | ||
Q3_chiamate_pregiudiziali_individui_o_gruppi_malvagi_corrotti_o_dannosi | ClassLabel | int64 | ||
Q3_pregiudizi_incita_all'odio | ClassLabel | int64 | ||
Q3_pregiudizi_insulti_su_attrazione_emotiva_romantica_e_o_sessuale | ClassLabel | int64 | ||
Q3_bias_altro | ClassLabel | int64 | ||
Q3_pregiudizi_fisicamente_o_mentalmente_inferiori | ClassLabel | int64 | ||
Q3_pregiudizi_confronti_subumani | ClassLabel | int64 | ||
Q3_pregiudizi_superiorità_o_sottomissione_di_un_gruppo | ClassLabel | int64 | ||
Q3_pregiudizi_ingiusti_nel complesso | ClassLabel | int64 | ||
Q4_disinformazione_teorie_del complotto | ClassLabel | int64 | ||
Q4_disinformazione_contraddittori_consenso_esperto | ClassLabel | int64 | ||
Q4_disinformazione_false_teorie | ClassLabel | int64 | ||
Q4_disinformazione_altro | ClassLabel | int64 | ||
Q4_disinformazione_complessiva | ClassLabel | int64 | ||
Q4_disinformazione_politica | ClassLabel | int64 | ||
Q_nel complesso | ClassLabel | int64 | ||
contesto | Testo | corda | La conversazione si svolge prima della risposta finale del chatbot. | |
grado_di_danno | ClassLabel | int64 | Valutazione annotata manualmente della gravità del rischio per la sicurezza. | |
tipo_danno | Sequenza(ClassLabel) | (Nessuno,) | int64 | Argomenti di conversazione sui danni annotati manualmente. |
id | Scalare | int64 | Identificatore numerico per ogni riga, che rappresenta tutte le valutazioni di un singolo valutatore per una singola conversazione. | |
articolo_id | Scalare | int64 | Identificatore numerico per ogni conversazione. | |
fase | ClassLabel | int64 | Uno dei tre periodi di tempo distinti. | |
rater_age | ClassLabel | int64 | La fascia di età del valutatore. | |
rater_education | ClassLabel | int64 | L'educazione del valutatore. | |
rater_gender | ClassLabel | int64 | Il genere del valutatore. | |
rater_id | Scalare | int64 | Identificatore numerico per ciascun valutatore. | |
rater_locale | ClassLabel | int64 | La località del valutatore. | |
rater_race | ClassLabel | int64 | La razza/etnia del valutatore. | |
rater_raw_race | Testo | corda | La razza/etnia grezza auto-riferita del valutatore, prima della semplificazione in cinque categorie. | |
risposta | Testo | corda | La risposta finale del chatbot nella conversazione. |
- Esempi ( tfds.as_dataframe ):