- Tanım :
Güvenlik için Konuşmaya Dayalı Yapay Zeka Değerlendirmesindeki Çeşitlilik ( DICES ) veri kümesi
Makine öğrenimi yaklaşımları genellikle olumlu ve olumsuz örnekler arasında net bir ayrım gerektiren veri kümeleriyle eğitilir ve değerlendirilir. Bu yaklaşım, birçok görev ve içerik öğesinde mevcut olan doğal öznelliği aşırı derecede basitleştirir. Aynı zamanda insan algı ve görüşlerindeki doğal çeşitliliği de gizler. İnsanlardaki içerik ve çeşitlilikteki çeşitliliği korumaya çalışan görevler genellikle oldukça pahalı ve zahmetlidir. Bu boşluğu doldurmak ve daha derinlemesine model performans analizlerini kolaylaştırmak için, yapay zeka tarafından oluşturulan konuşmaların güvenliğine ilişkin farklı perspektiflere sahip benzersiz bir veri kümesi olan DICES veri kümesini öneriyoruz. Konuşmaya dayalı yapay zeka sistemlerinin güvenlik değerlendirmesi görevine odaklanıyoruz. DICES veri seti, her bir değerlendirici hakkında ayrıntılı demografik bilgiler içerir, daha ileri analizlerin istatistiksel anlamlılığını sağlamak için konuşma başına benzersiz derecelendirmelerin son derece yüksek bir şekilde kopyalanmasını içerir ve farklı derecelendirme toplama stratejilerinin derinlemesine araştırılmasına olanak sağlamak için değerlendirici oylarını farklı demografik yapılara göre dağılımlar olarak kodlar.
Bu veri seti, konuşmaya dayalı yapay zekanın güvenliği bağlamında varyansı, belirsizliği ve çeşitliliği gözlemlemek ve ölçmek için çok uygundur. Veri kümesine, değerlendirici çeşitliliğinin farklı coğrafi bölgelerden, etnik köken gruplarından, yaş gruplarından ve cinsiyetlerden değerlendiricilerin güvenlik algısını nasıl etkilediğini gösteren bir dizi ölçümü açıklayan bir makale eşlik etmektedir. DICES veri kümesinin amacı, konuşmaya dayalı yapay zeka sistemlerinin güvenlik değerlendirmesi için ortak bir kıyaslama olarak kullanmaktır.
İÇERİK UYARISI : Bu veri kümesi, rahatsız edici olabilecek düşmanca konuşma örnekleri içermektedir.
Ana sayfa : https://github.com/google-research-datasets/dices-dataset
Kaynak kodu :
tfds.datasets.dices.Builder
Sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
dices/350 (varsayılan yapılandırma)
Yapılandırma açıklaması : Veri kümesi 350, 123 benzersiz değerlendiriciden oluşan çeşitli değerlendirici havuzu tarafından derecelendirilen 350 konuşmayı içerir. Her görüşme, beş üst düzey güvenlik kategorisi ve görüşmeye ilişkin bir genel anlama sorusuyla derecelendirilir. Değerlendiriciler cinsiyete (erkek veya kadın), ırk/etnik kökene (Beyaz, Siyah, Latin, Asyalı, Çok Irklı) göre dengelendi ve her değerlendirici tüm maddeleri derecelendirdi. Her değerlendirici tüm konuşmaları derecelendirdi. Her görüşmenin 123 benzersiz derecelendirmesi vardır. Bu veri setindeki toplam satır sayısı 43050'dir.
İndirme boyutu :
29.70 MiB
Veri kümesi boyutu :
74.43 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 43.050 |
- Özellik yapısı :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
Q1_whole_conversation_evaluation | SınıfEtiketi | int64 | Bir konuşmanın anlaşılabilirliğine ilişkin derecelendirme. | |
Q2_harmful_content_dangerous_content | SınıfEtiketi | int64 | ||
Q2_harmful_content_derogation_of_boat | SınıfEtiketi | int64 | ||
Q2_harmful_content_in sensitive | SınıfEtiketi | int64 | ||
Q2_harmful_content_medical_legal_financial_or_relationship_advice | SınıfEtiketi | int64 | ||
Q2_harmful_content_obscene_and_profane | SınıfEtiketi | int64 | ||
Q2_harmful_content_other | SınıfEtiketi | int64 | ||
Q2_harmful_content_overall | SınıfEtiketi | int64 | ||
Q2_harmful_content_personal_information | SınıfEtiketi | int64 | ||
Q2_harmful_content_regulated_goods | SınıfEtiketi | int64 | ||
Q2_harmful_content_sekssel_suggestive_content | SınıfEtiketi | int64 | ||
Q3_bias_other | SınıfEtiketi | int64 | ||
Q3_bias_overall | SınıfEtiketi | int64 | ||
Q3_bias_targeting_beliefs | SınıfEtiketi | int64 | ||
Q3_bias_targeting_gender_seksüel_orientation | SınıfEtiketi | int64 | ||
Q3_bias_targeting_inherited_attributes | SınıfEtiketi | int64 | ||
Q3_bias_targeting_status | SınıfEtiketi | int64 | ||
Q4_yanlış bilgi | SınıfEtiketi | int64 | ||
Q5_political_affiliation | SınıfEtiketi | int64 | ||
Q6_policy_guidelines_making_endorsement | SınıfEtiketi | int64 | ||
S6_policy_guidelines_other | SınıfEtiketi | int64 | ||
Q6_policy_guidelines_overall | SınıfEtiketi | int64 | ||
Q6_policy_guidelines_polarizing_topics | SınıfEtiketi | int64 | ||
Q_overall | SınıfEtiketi | int64 | ||
answer_time_ms | Skaler | int64 | Her değerlendiricinin her bir güvenlik açıklaması sorusu için harcadığı süre. | |
answer_timestamp | Skaler | int64 | Her görüşmenin her değerlendirici tarafından derecelendirildiği zaman. | |
bağlam | Metin | sicim | Sohbet, son chatbot yanıtından önce dönüyor. | |
derece_of_harm | SınıfEtiketi | int64 | Güvenlik riskinin ciddiyetine ilişkin elle açıklamalı derecelendirme. | |
zarar_tipi | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | Konuşmanın elle açıklamalı zarar konu(lar)ı. |
İD | Skaler | int64 | Her satır için, tek bir değerlendiricinin tek bir görüşmeye verdiği tüm derecelendirmeleri temsil eden sayısal tanımlayıcı. | |
item_id | Skaler | int64 | Her görüşme için sayısal tanımlayıcı. | |
faz | SınıfEtiketi | int64 | Üç farklı zaman diliminden biri. | |
değerlendirici_yaşı | SınıfEtiketi | int64 | Değerlendiricinin yaş grubu. | |
değerlendirici_eğitim | SınıfEtiketi | int64 | Değerlendiricinin eğitimi. | |
değerlendirici_gender | SınıfEtiketi | int64 | Değerlendiricinin cinsiyeti. | |
değerlendirici_id | Skaler | int64 | Her değerlendirici için sayısal tanımlayıcı. | |
değerlendirici_race | SınıfEtiketi | int64 | Değerlendiricinin ırkı/etnik kökeni. | |
rater_raw_race | Metin | sicim | Beş kategoriye basitleştirmeden önce, değerlendiricinin kendisi tarafından bildirilen ham ırk/etnik köken. | |
cevap | Metin | sicim | Konuşmadaki son chatbot yanıtı. | |
güvenlik_gold | SınıfEtiketi | int64 | Uzmanlar tarafından sağlanan altın standart güvenlik etiketi. | |
Safety_gold_reason | Metin | sicim | Uzmanlar tarafından sağlanan altın güvenlik etiketinin nedenleri (varsa). |
- Örnekler ( tfds.as_dataframe ):
zar/990
Yapılandırma açıklaması : Veri kümesi 990, 173 benzersiz değerlendiriciden oluşan çeşitli değerlendirici havuzu tarafından derecelendirilen 990 konuşmayı içerir. Her konuşma, üç üst düzey güvenlik kategorisi ve bir genel konuşma anlama sorusuyla derecelendirilir. Değerlendiriciler, her görüşme için değerlendirici sayısının cinsiyete (Erkek, Kadın) ve bölgeye (ABD, Hindistan) göre dengeleneceği şekilde işe alındı. Her değerlendirici yalnızca konuşmanın bir örneğini derecelendirdi. Her görüşmenin 60-70 benzersiz derecelendirmesi vardır. Bu veri setindeki toplam satır sayısı 72103'tür.
İndirme boyutu :
48.06 MiB
Veri kümesi boyutu :
150.38 MiB
Otomatik önbelleğe alınmış ( belgeler ): Yalnızca
shuffle_files=False
(train) olduğundaBölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 72.103 |
- Özellik yapısı :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
Q1_whole_conversation_evaluation | SınıfEtiketi | int64 | Bir konuşmanın anlaşılabilirliğine ilişkin derecelendirme. | |
Q2_harmful_content_explicitly_seksüel | SınıfEtiketi | int64 | ||
Q2_harmful_content_financial_advice | SınıfEtiketi | int64 | ||
Q2_harmful_content_harm_to_people_or_animals | SınıfEtiketi | int64 | ||
Q2_harmful_content_health_and_safety_claims | SınıfEtiketi | int64 | ||
Q2_harmful_content_how_tos_about_harmful_activities | SınıfEtiketi | int64 | ||
Q2_harmful_content_obscenities_or_profanities | SınıfEtiketi | int64 | ||
Q2_harmful_content_other | SınıfEtiketi | int64 | ||
Q2_harmful_content_overall | SınıfEtiketi | int64 | ||
Q2_harmful_content_personal_information | SınıfEtiketi | int64 | ||
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods | SınıfEtiketi | int64 | ||
Q2_harmful_content_promotes_or_condones_violence | SınıfEtiketi | int64 | ||
Q2_harmful_content_violent_or_gory | SınıfEtiketi | int64 | ||
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_ Based_on_any_of_the_attributes_noted_above | SınıfEtiketi | int64 | ||
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious | SınıfEtiketi | int64 | ||
Q3_bias_incites_hatred | SınıfEtiketi | int64 | ||
Q3_bias_insults_about_emotional_romantic_and_or_seksüel_attraction | SınıfEtiketi | int64 | ||
Q3_bias_other | SınıfEtiketi | int64 | ||
Q3_bias_physically_or_mentally_inferior | SınıfEtiketi | int64 | ||
Q3_bias_subhuman_comparisons | SınıfEtiketi | int64 | ||
Q3_bias_superiority_or_subjugation_of_a_group | SınıfEtiketi | int64 | ||
Q3_unfair_bias_overall | SınıfEtiketi | int64 | ||
Q4_yanlış bilgi_komplo_teorileri | SınıfEtiketi | int64 | ||
Q4_misinformation_contradicts_expert_consensus | SınıfEtiketi | int64 | ||
Q4_misformation_false_theories | SınıfEtiketi | int64 | ||
Q4_misformation_other | SınıfEtiketi | int64 | ||
Q4_misformation_overall | SınıfEtiketi | int64 | ||
Q4_yanlış bilgi_politik | SınıfEtiketi | int64 | ||
Q_overall | SınıfEtiketi | int64 | ||
bağlam | Metin | sicim | Sohbet, son chatbot yanıtından önce dönüyor. | |
derece_of_harm | SınıfEtiketi | int64 | Güvenlik riskinin ciddiyetine ilişkin elle açıklamalı derecelendirme. | |
zarar_tipi | Sıra(SınıfEtiketi) | (Hiçbiri,) | int64 | Konuşmanın elle açıklamalı zarar konu(lar)ı. |
İD | Skaler | int64 | Her satır için, tek bir değerlendiricinin tek bir görüşmeye verdiği tüm derecelendirmeleri temsil eden sayısal tanımlayıcı. | |
item_id | Skaler | int64 | Her görüşme için sayısal tanımlayıcı. | |
faz | SınıfEtiketi | int64 | Üç farklı zaman diliminden biri. | |
değerlendirici_yaşı | SınıfEtiketi | int64 | Değerlendiricinin yaş grubu. | |
değerlendirici_eğitim | SınıfEtiketi | int64 | Değerlendiricinin eğitimi. | |
değerlendirici_gender | SınıfEtiketi | int64 | Değerlendiricinin cinsiyeti. | |
değerlendirici_id | Skaler | int64 | Her değerlendirici için sayısal tanımlayıcı. | |
değerlendirici_locale | SınıfEtiketi | int64 | Değerlendiricinin bulunduğu yer. | |
değerlendirici_race | SınıfEtiketi | int64 | Değerlendiricinin ırkı/etnik kökeni. | |
rater_raw_race | Metin | sicim | Beş kategoriye basitleştirmeden önce, değerlendiricinin kendisi tarafından bildirilen ham ırk/etnik köken. | |
cevap | Metin | sicim | Konuşmadaki son chatbot yanıtı. |
- Örnekler ( tfds.as_dataframe ):