- Descrição :
O conjunto de dados Diversidade na Avaliação de IA Conversacional para Segurança ( DICES )
As abordagens de aprendizado de máquina são frequentemente treinadas e avaliadas com conjuntos de dados que exigem uma separação clara entre exemplos positivos e negativos. Esta abordagem simplifica excessivamente a subjetividade natural presente em muitas tarefas e itens de conteúdo. Também obscurece a diversidade inerente às percepções e opiniões humanas. Muitas vezes, as tarefas que tentam preservar a variação no conteúdo e na diversidade dos seres humanos são bastante caras e trabalhosas. Para preencher esta lacuna e facilitar análises mais aprofundadas do desempenho do modelo, propomos o conjunto de dados DICES – um conjunto de dados único com diversas perspectivas sobre a segurança das conversas geradas por IA. Nós nos concentramos na tarefa de avaliação de segurança de sistemas de IA conversacionais. O conjunto de dados DICES contém informações demográficas detalhadas sobre cada avaliador, replicação extremamente alta de classificações exclusivas por conversa para garantir a significância estatística de análises adicionais e codifica os votos dos avaliadores como distribuições entre diferentes dados demográficos para permitir explorações aprofundadas de diferentes estratégias de agregação de classificações.
Este conjunto de dados é adequado para observar e medir a variação, ambiguidade e diversidade no contexto da segurança da IA conversacional. O conjunto de dados é acompanhado por um artigo que descreve um conjunto de métricas que mostram como a diversidade dos avaliadores influencia a percepção de segurança dos avaliadores de diferentes regiões geográficas, grupos étnicos, faixas etárias e géneros. O objetivo do conjunto de dados DICES é ser usado como referência compartilhada para avaliação de segurança de sistemas de IA conversacionais.
AVISO DE CONTEÚDO : Este conjunto de dados contém exemplos adversários de conversas que podem ser ofensivas.
Página inicial : https://github.com/google-research-datasets/dices-dataset
Código fonte :
tfds.datasets.dices.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Chaves supervisionadas (consulte o documento
as_supervised
):None
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
dices/350 (configuração padrão)
Descrição da configuração : o conjunto de dados 350 contém 350 conversas avaliadas por um conjunto diversificado de avaliadores de 123 avaliadores exclusivos. Cada conversa é avaliada com cinco categorias de segurança de nível superior e uma questão de compreensão geral da conversa. Os avaliadores foram recrutados e balanceados por gênero (homem ou mulher), raça/etnia (branca, negra, latina, asiática, multirracial) e cada avaliador avaliou todos os itens. Cada avaliador avaliou todas as conversas. Cada conversa tem 123 classificações exclusivas. O número total de linhas neste conjunto de dados é 43.050.
Tamanho do download :
29.70 MiB
Tamanho do conjunto de dados :
74.43 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 43.050 |
- Estrutura de recursos :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Q1_completa_conversação_avaliação | ClassLabel | int64 | Avaliação sobre a compreensibilidade de uma conversa. | |
Q2_harmful_content_dangerous_content | ClassLabel | int64 | ||
Q2_harmful_content_derogation_of_boat | ClassLabel | int64 | ||
Q2_harmful_content_insensitive | ClassLabel | int64 | ||
Q2_harmful_content_medical_legal_financial_or_relationship_advice | ClassLabel | int64 | ||
Q2_harmful_content_obscene_and_profane | ClassLabel | int64 | ||
Q2_harmful_content_other | ClassLabel | int64 | ||
Q2_harmful_content_overall | ClassLabel | int64 | ||
Q2_harmful_content_personal_information | ClassLabel | int64 | ||
Q2_harmful_content_regulated_goods | ClassLabel | int64 | ||
Q2_harmful_content_sexualmente_suggestive_content | ClassLabel | int64 | ||
Q3_bias_other | ClassLabel | int64 | ||
Q3_bias_overall | ClassLabel | int64 | ||
Q3_bias_targeting_beliefs | ClassLabel | int64 | ||
Q3_bias_targeting_gender_sexual_orientation | ClassLabel | int64 | ||
Q3_bias_targeting_inherited_attributes | ClassLabel | int64 | ||
Q3_bias_targeting_status | ClassLabel | int64 | ||
Q4_desinformação | ClassLabel | int64 | ||
Q5_político_affiliation | ClassLabel | int64 | ||
Q6_policy_guidelines_making_endorsement | ClassLabel | int64 | ||
Q6_policy_guidelines_other | ClassLabel | int64 | ||
Q6_policy_guidelines_overall | ClassLabel | int64 | ||
Q6_policy_guidelines_polarizing_topics | ClassLabel | int64 | ||
Q_geral | ClassLabel | int64 | ||
resposta_tempo_ms | Escalar | int64 | Quantidade de tempo gasto por cada avaliador em cada questão da anotação de segurança. | |
resposta_timestamp | Escalar | int64 | Hora em que cada conversa foi avaliada por cada avaliador. | |
contexto | Texto | corda | A conversa termina antes da resposta final do chatbot. | |
grau_de_dano | ClassLabel | int64 | Classificação anotada à mão da gravidade do risco de segurança. | |
tipo_dano | Sequência (ClassLabel) | (Nenhum,) | int64 | Tópico(s) de conversa sobre danos anotados à mão. |
eu ia | Escalar | int64 | Identificador numérico para cada linha, representando todas as avaliações de um único avaliador para uma única conversa. | |
item_id | Escalar | int64 | Identificador numérico para cada conversa. | |
fase | ClassLabel | int64 | Um dos três períodos de tempo distintos. | |
idade_do avaliador | ClassLabel | int64 | A faixa etária do avaliador. | |
avaliador_educação | ClassLabel | int64 | A educação do avaliador. | |
avaliador_gênero | ClassLabel | int64 | O gênero do avaliador. | |
avaliador_id | Escalar | int64 | Identificador numérico para cada avaliador. | |
avaliador_corrida | ClassLabel | int64 | A raça/etnia do avaliador. | |
avaliador_raw_race | Texto | corda | A raça/etnia bruta autodeclarada pelo avaliador, antes da simplificação para cinco categorias. | |
resposta | Texto | corda | A resposta final do chatbot na conversa. | |
segurança_ouro | ClassLabel | int64 | O selo de segurança padrão ouro fornecido por especialistas. | |
segurança_ouro_motivo | Texto | corda | A(s) razão(ões) (se fornecida) para o rótulo de segurança dourado fornecido por especialistas. |
- Exemplos ( tfds.as_dataframe ):
dados/990
Descrição da configuração : o conjunto de dados 990 contém 990 conversas avaliadas por um conjunto diversificado de avaliadores de 173 avaliadores exclusivos. Cada conversa é avaliada com três categorias de segurança de nível superior e uma questão geral de compreensão da conversa. Os avaliadores foram recrutados de forma que o número de avaliadores para cada conversa fosse equilibrado por gênero (homem, mulher) e localidade (EUA, Índia). Cada avaliador avaliou apenas uma amostra da conversa. Cada conversa tem de 60 a 70 avaliações exclusivas. O número total de linhas neste conjunto de dados é 72.103.
Tamanho do download :
48.06 MiB
Tamanho do conjunto de dados :
150.38 MiB
Armazenado em cache automaticamente ( documentação ): somente quando
shuffle_files=False
(train)Divisões :
Dividir | Exemplos |
---|---|
'train' | 72.103 |
- Estrutura de recursos :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentação de recursos :
Recurso | Aula | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Q1_completa_conversação_avaliação | ClassLabel | int64 | Avaliação sobre a compreensibilidade de uma conversa. | |
Q2_harmful_content_explicitly_sexual | ClassLabel | int64 | ||
Q2_harmful_content_financial_advice | ClassLabel | int64 | ||
Q2_harmful_content_harm_to_people_or_animals | ClassLabel | int64 | ||
Q2_reivindicações_de_conteúdo_prejudiciais_de_saúde_e_segurança | ClassLabel | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | ClassLabel | int64 | ||
Q2_harmful_content_obscenities_or_profanities | ClassLabel | int64 | ||
Q2_harmful_content_other | ClassLabel | int64 | ||
Q2_harmful_content_overall | ClassLabel | int64 | ||
Q2_harmful_content_personal_information | ClassLabel | int64 | ||
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods | ClassLabel | int64 | ||
Q2_harmful_content_promotes_or_condones_violence | ClassLabel | int64 | ||
Q2_harmful_content_violent_or_gory | ClassLabel | int64 | ||
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above | ClassLabel | int64 | ||
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious | ClassLabel | int64 | ||
Q3_bias_incites_hatred | ClassLabel | int64 | ||
Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction | ClassLabel | int64 | ||
Q3_bias_other | ClassLabel | int64 | ||
Q3_bias_fisicamente_ou_mentalmente_inferior | ClassLabel | int64 | ||
Q3_bias_subhuman_comparisons | ClassLabel | int64 | ||
Q3_bias_superiority_or_subjugation_of_a_group | ClassLabel | int64 | ||
Q3_unfair_bias_overall | ClassLabel | int64 | ||
Q4_misinformation_conspiracy_theories | ClassLabel | int64 | ||
Q4_misinformation_contradicts_expert_consensus | ClassLabel | int64 | ||
Q4_misinformation_false_theories | ClassLabel | int64 | ||
Q4_misinformation_other | ClassLabel | int64 | ||
Q4_desinformação_geral | ClassLabel | int64 | ||
Q4_desinformação_política | ClassLabel | int64 | ||
Q_geral | ClassLabel | int64 | ||
contexto | Texto | corda | A conversa termina antes da resposta final do chatbot. | |
grau_de_dano | ClassLabel | int64 | Classificação anotada à mão da gravidade do risco de segurança. | |
tipo_dano | Sequência (ClassLabel) | (Nenhum,) | int64 | Tópico(s) de conversa sobre danos anotados à mão. |
eu ia | Escalar | int64 | Identificador numérico para cada linha, representando todas as avaliações de um único avaliador para uma única conversa. | |
item_id | Escalar | int64 | Identificador numérico para cada conversa. | |
fase | ClassLabel | int64 | Um dos três períodos de tempo distintos. | |
idade_do avaliador | ClassLabel | int64 | A faixa etária do avaliador. | |
avaliador_educação | ClassLabel | int64 | A educação do avaliador. | |
avaliador_gênero | ClassLabel | int64 | O gênero do avaliador. | |
avaliador_id | Escalar | int64 | Identificador numérico para cada avaliador. | |
avaliador_locale | ClassLabel | int64 | A localidade do avaliador. | |
avaliador_corrida | ClassLabel | int64 | A raça/etnia do avaliador. | |
avaliador_raw_race | Texto | corda | A raça/etnia bruta autodeclarada pelo avaliador, antes da simplificação para cinco categorias. | |
resposta | Texto | corda | A resposta final do chatbot na conversa. |
- Exemplos ( tfds.as_dataframe ):