- Descripción :
El conjunto de datos de diversidad en la evaluación de la seguridad de la IA conversacional ( DICES )
Los enfoques de aprendizaje automático a menudo se entrenan y evalúan con conjuntos de datos que requieren una separación clara entre ejemplos positivos y negativos. Este enfoque simplifica demasiado la subjetividad natural presente en muchas tareas y elementos de contenido. También oscurece la diversidad inherente a las percepciones y opiniones humanas. A menudo, las tareas que intentan preservar la variación en el contenido y la diversidad de los seres humanos son bastante costosas y laboriosas. Para llenar este vacío y facilitar análisis más profundos del rendimiento del modelo, proponemos el conjunto de datos DICES, un conjunto de datos único con diversas perspectivas sobre la seguridad de las conversaciones generadas por IA. Nos centramos en la tarea de evaluación de la seguridad de los sistemas de IA conversacionales. El conjunto de datos DICES contiene información demográfica detallada sobre cada evaluador, una replicación extremadamente alta de calificaciones únicas por conversación para garantizar la importancia estadística de análisis adicionales y codifica los votos de los evaluadores como distribuciones entre diferentes datos demográficos para permitir exploraciones en profundidad de diferentes estrategias de agregación de calificaciones.
Este conjunto de datos es muy adecuado para observar y medir la variación, la ambigüedad y la diversidad en el contexto de la seguridad de la IA conversacional. El conjunto de datos va acompañado de un artículo que describe un conjunto de métricas que muestran cómo la diversidad de los evaluadores influye en la percepción de seguridad de los evaluadores de diferentes regiones geográficas, grupos étnicos, grupos de edad y géneros. El objetivo del conjunto de datos DICES es utilizarse como punto de referencia compartido para la evaluación de la seguridad de los sistemas de IA conversacionales.
ADVERTENCIA DE CONTENIDO : este conjunto de datos contiene ejemplos contradictorios de conversaciones que pueden resultar ofensivas.
Página de inicio : https://github.com/google-research-datasets/dices-dataset
Código fuente :
tfds.datasets.dices.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
dados/350 (configuración predeterminada)
Descripción de la configuración : el conjunto de datos 350 contiene 350 conversaciones calificadas por un grupo diverso de evaluadores de 123 evaluadores únicos. Cada conversación se califica con cinco categorías de seguridad de alto nivel y una pregunta de comprensión general de la conversación. Los evaluadores reclutados se equilibraron por género (hombre o mujer), raza/etnia (blanco, negro, latino, asiático, multirracial) y cada evaluador calificó todos los elementos. Cada evaluador calificó todas las conversaciones. Cada conversación tiene 123 calificaciones únicas. El número total de filas en este conjunto de datos es 43050.
Tamaño de descarga :
29.70 MiB
Tamaño del conjunto de datos :
74.43 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 43.050 |
- Estructura de características :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
Q1_evaluación_conversación_completa | Etiqueta de clase | int64 | Calificación sobre la comprensibilidad de una conversación. | |
Q2_contenido_dañino_contenido_peligroso | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_derogación_del_barco | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_insensible | Etiqueta de clase | int64 | ||
Q2_harmful_content_medical_legal_financial_or_relationship_advice | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_obsceno_y_profano | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_otro | Etiqueta de clase | int64 | ||
Q2_harmful_content_overall | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_información_personal | Etiqueta de clase | int64 | ||
Q2_bienes_regulados_contenido_dañino | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_contenido_sexualmente_sugestivo | Etiqueta de clase | int64 | ||
Q3_sesgo_otro | Etiqueta de clase | int64 | ||
Q3_bias_overall | Etiqueta de clase | int64 | ||
Q3_bias_targeting_creencias | Etiqueta de clase | int64 | ||
Q3_bias_targeting_gender_sexual_orientation | Etiqueta de clase | int64 | ||
Q3_bias_targeting_atributos_heredados | Etiqueta de clase | int64 | ||
Q3_bias_targeting_status | Etiqueta de clase | int64 | ||
Q4_desinformación | Etiqueta de clase | int64 | ||
Q5_afiliación_política | Etiqueta de clase | int64 | ||
Q6_policy_guidelines_making_endorsement | Etiqueta de clase | int64 | ||
Q6_policy_guidelines_other | Etiqueta de clase | int64 | ||
Q6_policy_guidelines_overall | Etiqueta de clase | int64 | ||
Q6_policy_guidelines_polarizing_topics | Etiqueta de clase | int64 | ||
Q_general | Etiqueta de clase | int64 | ||
tiempo_respuesta_ms | Escalar | int64 | Cantidad de tiempo dedicado por cada evaluador a cada pregunta de anotación de seguridad. | |
respuesta_marca de tiempo | Escalar | int64 | Hora en la que cada evaluador calificó cada conversación. | |
contexto | Texto | cadena | La conversación cambia antes de la respuesta final del chatbot. | |
grado_de_daño | Etiqueta de clase | int64 | Clasificación anotada a mano de la gravedad del riesgo de seguridad. | |
tipo_daño | Secuencia (etiqueta de clase) | (Ninguno,) | int64 | Tema(s) de conversación sobre daños anotados a mano. |
identificación | Escalar | int64 | Identificador numérico para cada fila, que representa todas las calificaciones de un único evaluador en una única conversación. | |
id_artículo | Escalar | int64 | Identificador numérico de cada conversación. | |
fase | Etiqueta de clase | int64 | Uno de los tres períodos de tiempo distintos. | |
edad_evaluador | Etiqueta de clase | int64 | El grupo de edad del evaluador. | |
calificador_educación | Etiqueta de clase | int64 | La educación del evaluador. | |
evaluador_género | Etiqueta de clase | int64 | El género del evaluador. | |
evaluador_id | Escalar | int64 | Identificador numérico de cada evaluador. | |
evaluador_carrera | Etiqueta de clase | int64 | La raza/etnia del evaluador. | |
evaluador_raw_race | Texto | cadena | La raza/etnia bruta autoinformada del evaluador, antes de la simplificación a cinco categorías. | |
respuesta | Texto | cadena | La respuesta final del chatbot en la conversación. | |
seguridad_oro | Etiqueta de clase | int64 | La etiqueta de seguridad de referencia proporcionada por expertos. | |
motivo_de_seguridad_oro | Texto | cadena | Los motivos (si se dan) de la etiqueta de seguridad dorada proporcionados por expertos. |
- Ejemplos ( tfds.as_dataframe ):
dados/990
Descripción de la configuración : el conjunto de datos 990 contiene 990 conversaciones calificadas por un grupo diverso de evaluadores de 173 evaluadores únicos. Cada conversación se califica con tres categorías de seguridad de alto nivel y una pregunta general de comprensión de la conversación. Se reclutó a los evaluadores de modo que el número de evaluadores para cada conversación estuviera equilibrado por género (hombre, mujer) y ubicación (EE. UU., India). Cada evaluador calificó sólo una muestra de la conversación. Cada conversación tiene entre 60 y 70 calificaciones únicas. El número total de filas en este conjunto de datos es 72103.
Tamaño de descarga :
48.06 MiB
Tamaño del conjunto de datos :
150.38 MiB
Almacenamiento en caché automático ( documentación ): solo cuando
shuffle_files=False
(entrenamiento)Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 72.103 |
- Estructura de características :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
Q1_evaluación_conversación_completa | Etiqueta de clase | int64 | Calificación sobre la comprensibilidad de una conversación. | |
Q2_contenido_dañino_explícitamente_sexual | Etiqueta de clase | int64 | ||
Q2_harmful_content_financial_advice | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_daño_a_las_personas_o_animales | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_reclamaciones_de_salud_y_seguridad | Etiqueta de clase | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_obscenidades_o_blasfemias | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_otro | Etiqueta de clase | int64 | ||
Q2_harmful_content_overall | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_información_personal | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_promueve_o_condona_el_uso_de_bienes_regulados_dañinos | Etiqueta de clase | int64 | ||
Q2_contenido_dañino_promueve_o_condona_la_violencia | Etiqueta de clase | int64 | ||
Q2_harmful_content_violent_or_gory | Etiqueta de clase | int64 | ||
Q3_3_Insultos_raciales_religiosos u otros_estereotipos_que_incitan_o_promueven_el odio_basado_en_cualquiera_de_los_atributos_anotados_arriba | Etiqueta de clase | int64 | ||
Q3_llamadas_prejuiciadas_a_individuos_o_grupos_malvados_corruptos_o_maliciosos | Etiqueta de clase | int64 | ||
Q3_el sesgo_incita_al odio | Etiqueta de clase | int64 | ||
Q3_insultos_prejudiciales_sobre_la_atracción_emocional_romántica_y_o_sexual | Etiqueta de clase | int64 | ||
Q3_sesgo_otro | Etiqueta de clase | int64 | ||
Q3_sesgo_físicamente_o_mentalmente_inferior | Etiqueta de clase | int64 | ||
Q3_comparaciones_subhumanas_de_sesgo | Etiqueta de clase | int64 | ||
Q3_sesgo_de_superioridad_o_subyugación_de_un_grupo | Etiqueta de clase | int64 | ||
Q3_sesgo_injusto_general | Etiqueta de clase | int64 | ||
Q4_teorías_conspirativas_desinformación | Etiqueta de clase | int64 | ||
Q4_desinformación_contradictos_consenso_experto | Etiqueta de clase | int64 | ||
Q4_teorías_falsas_desinformación | Etiqueta de clase | int64 | ||
Q4_desinformación_otro | Etiqueta de clase | int64 | ||
Q4_desinformación_general | Etiqueta de clase | int64 | ||
Q4_desinformación_política | Etiqueta de clase | int64 | ||
Q_general | Etiqueta de clase | int64 | ||
contexto | Texto | cadena | La conversación cambia antes de la respuesta final del chatbot. | |
grado_de_daño | Etiqueta de clase | int64 | Clasificación anotada a mano de la gravedad del riesgo de seguridad. | |
tipo_daño | Secuencia (etiqueta de clase) | (Ninguno,) | int64 | Tema(s) de conversación sobre daños anotados a mano. |
identificación | Escalar | int64 | Identificador numérico para cada fila, que representa todas las calificaciones de un único evaluador en una única conversación. | |
id_artículo | Escalar | int64 | Identificador numérico de cada conversación. | |
fase | Etiqueta de clase | int64 | Uno de los tres períodos de tiempo distintos. | |
edad_evaluador | Etiqueta de clase | int64 | El grupo de edad del evaluador. | |
calificador_educación | Etiqueta de clase | int64 | La educación del evaluador. | |
evaluador_género | Etiqueta de clase | int64 | El género del evaluador. | |
evaluador_id | Escalar | int64 | Identificador numérico de cada evaluador. | |
evaluador_local | Etiqueta de clase | int64 | La ubicación del evaluador. | |
evaluador_carrera | Etiqueta de clase | int64 | La raza/etnia del evaluador. | |
evaluador_raw_race | Texto | cadena | La raza/etnia bruta autoinformada del evaluador, antes de la simplificación a cinco categorías. | |
respuesta | Texto | cadena | La respuesta final del chatbot en la conversación. |
- Ejemplos ( tfds.as_dataframe ):