ลูกเต๋า

  • คำอธิบาย :

ชุดข้อมูลการประเมินความหลากหลายในการสนทนา AI เพื่อความปลอดภัย ( DICES )

แนวทางการเรียนรู้ของเครื่องมักได้รับการฝึกอบรมและประเมินด้วยชุดข้อมูลที่ต้องการการแยกตัวอย่างที่ชัดเจนระหว่างตัวอย่างเชิงบวกและเชิงลบ วิธีการนี้ช่วยลดความยุ่งยากตามธรรมชาติที่ปรากฏในงานและรายการเนื้อหาต่างๆ มากเกินไป นอกจากนี้ยังปิดบังความหลากหลายโดยธรรมชาติในการรับรู้และความคิดเห็นของมนุษย์ งานที่พยายามรักษาความแปรปรวนในเนื้อหาและความหลากหลายในมนุษย์มักมีราคาแพงและลำบาก เพื่อเติมเต็มช่องว่างนี้และอำนวยความสะดวกในการวิเคราะห์ประสิทธิภาพของโมเดลในเชิงลึกมากขึ้น เราขอเสนอชุดข้อมูล DICES ซึ่งเป็นชุดข้อมูลที่ไม่ซ้ำใครพร้อมมุมมองที่หลากหลายเกี่ยวกับความปลอดภัยของการสนทนาที่สร้างโดย AI เรามุ่งเน้นงานการประเมินความปลอดภัยของระบบ AI การสนทนา ชุดข้อมูล DICES ประกอบด้วยข้อมูลประชากรโดยละเอียดเกี่ยวกับผู้ประเมินแต่ละคน การจำลองการให้คะแนนที่ไม่ซ้ำกันต่อการสนทนาที่สูงมาก เพื่อให้มั่นใจในนัยสำคัญทางสถิติของการวิเคราะห์เพิ่มเติม และเข้ารหัสการโหวตของผู้ประเมินเป็นการกระจายในกลุ่มประชากรที่แตกต่างกัน เพื่อให้สามารถสำรวจเชิงลึกของกลยุทธ์การรวมคะแนนที่แตกต่างกัน

ชุดข้อมูลนี้เหมาะอย่างยิ่งในการสังเกตและวัดความแปรปรวน ความคลุมเครือ และความหลากหลายในบริบทความปลอดภัยของ AI การสนทนา ชุดข้อมูลนี้มาพร้อมกับบทความที่อธิบายชุดเมตริกที่แสดงให้เห็นว่าความหลากหลายของผู้ประเมินมีอิทธิพลต่อการรับรู้ด้านความปลอดภัยของผู้ประเมินจากภูมิภาคทางภูมิศาสตร์ กลุ่มชาติพันธุ์ กลุ่มอายุ และเพศที่แตกต่างกันอย่างไร เป้าหมายของชุดข้อมูล DICES คือการใช้เป็นเกณฑ์มาตรฐานที่ใช้ร่วมกันสำหรับการประเมินความปลอดภัยของระบบ AI แบบสนทนา

คำเตือนเนื้อหา : ชุดข้อมูลนี้มีตัวอย่างการสนทนาที่ไม่เหมาะสมซึ่งอาจไม่เหมาะสม

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

ลูกเต๋า/350 (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : ชุดข้อมูล 350 มีการสนทนา 350 รายการที่ได้รับการจัดอันดับโดยกลุ่มผู้ประเมินที่หลากหลายซึ่งมีผู้ประเมินที่ไม่ซ้ำกัน 123 คน การสนทนาแต่ละรายการได้รับการจัดอันดับโดยหมวดหมู่ความปลอดภัยสูงสุดห้าหมวดหมู่ และคำถามเพื่อความเข้าใจโดยรวมของการสนทนาหนึ่งคำถาม ผู้ประเมินได้รับการคัดเลือกอย่างสมดุลตามเพศ (ชายหรือหญิง) เชื้อชาติ/ชาติพันธุ์ (ผิวขาว ดำ ละติน เอเชีย หลายเชื้อชาติ) และผู้ประเมินแต่ละคนจะให้คะแนนรายการทั้งหมด ผู้ประเมินแต่ละคนให้คะแนนการสนทนาทั้งหมด การสนทนาแต่ละครั้งมีคะแนนไม่ซ้ำกัน 123 คะแนน จำนวนแถวทั้งหมดในชุดข้อมูลนี้คือ 43050

  • ขนาดดาวน์โหลด : 29.70 MiB

  • ขนาดชุดข้อมูล : 74.43 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 43,050
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
Q1_การประเมินการสนทนาทั้งหมด ClassLabel int64 ให้คะแนนเกี่ยวกับความเข้าใจในการสนทนา
Q2_harmful_content_dangerous_content ClassLabel int64
Q2_harmful_content_derogation_of_boat ClassLabel int64
Q2_harmful_content_insensitive ClassLabel int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice ClassLabel int64
Q2_harmful_content_obscene_and_profane ClassLabel int64
Q2_harmful_content_อื่นๆ ClassLabel int64
Q2_harmful_content_โดยรวม ClassLabel int64
Q2_harmful_content_personal_information ClassLabel int64
Q2_harmful_content_ถูกควบคุม_สินค้า ClassLabel int64
Q2_harmful_content_sexually_suggestive_content ClassLabel int64
Q3_bias_อื่นๆ ClassLabel int64
Q3_bias_โดยรวม ClassLabel int64
Q3_อคติ_การกำหนดเป้าหมาย_ความเชื่อ ClassLabel int64
Q3_อคติ_การกำหนดเป้าหมาย_เพศ_ทางเพศ_การวางแนว ClassLabel int64
Q3_bias_targeting_inherited_attributes ClassLabel int64
Q3_bias_targeting_สถานะ ClassLabel int64
Q4_ข้อมูลที่ผิด ClassLabel int64
Q5_political_affiliation ClassLabel int64
Q6_policy_guidelines_making_endorsement ClassLabel int64
Q6_policy_guidelines_อื่นๆ ClassLabel int64
Q6_policy_guidelines_โดยรวม ClassLabel int64
คำถามที่ 6_policy_guidelines_polarizing_topics ClassLabel int64
Q_โดยรวม ClassLabel int64
answer_time_ms สเกลาร์ int64 ระยะเวลาที่ผู้ประเมินแต่ละคนใช้ในคำถามเกี่ยวกับคำอธิบายประกอบด้านความปลอดภัยแต่ละข้อ
answer_timestamp สเกลาร์ int64 เวลาที่แต่ละการสนทนาได้รับการจัดอันดับโดยผู้ประเมินแต่ละคน
บริบท ข้อความ เชือก การสนทนาจะเปลี่ยนก่อนการตอบกลับแชทบอทครั้งสุดท้าย
องศา_ของ_อันตราย ClassLabel int64 การจัดระดับความรุนแรงของความเสี่ยงด้านความปลอดภัยที่มีคำอธิบายประกอบด้วยมือ
harm_type ลำดับ(ClassLabel) (ไม่มี,) int64 หัวข้อสนทนาที่เป็นอันตรายที่มีคำอธิบายประกอบด้วยมือ
รหัส สเกลาร์ int64 ตัวระบุที่เป็นตัวเลขสำหรับแต่ละแถว ซึ่งแสดงถึงการให้คะแนนทั้งหมดโดยผู้ประเมินรายเดียวต่อการสนทนาเดียว
item_id สเกลาร์ int64 ตัวระบุที่เป็นตัวเลขสำหรับแต่ละการสนทนา
เฟส ClassLabel int64 หนึ่งในสามช่วงเวลาที่แตกต่างกัน
อัตรา_อายุ ClassLabel int64 กลุ่มอายุของผู้ประเมิน
Rater_การศึกษา ClassLabel int64 การศึกษาของผู้ประเมิน
Rater_gender ClassLabel int64 เพศของผู้ประเมิน
ผู้ประเมิน_id สเกลาร์ int64 ตัวระบุที่เป็นตัวเลขสำหรับผู้ประเมินแต่ละคน
Rater_race ClassLabel int64 เชื้อชาติ/ชาติพันธุ์ของผู้ประเมิน
Rater_raw_race ข้อความ เชือก เชื้อชาติ/ชาติพันธุ์ที่รายงานด้วยตนเองของผู้ประเมิน ก่อนที่จะลดความซับซ้อนเป็นห้าหมวดหมู่
การตอบสนอง ข้อความ เชือก การตอบกลับแชทบอทครั้งสุดท้ายในการสนทนา
safety_gold ClassLabel int64 ป้ายความปลอดภัยมาตรฐานทองคำจัดทำโดยผู้เชี่ยวชาญ
safety_gold_เหตุผล ข้อความ เชือก เหตุผล (หากระบุ) สำหรับฉลากความปลอดภัยของทองคำที่จัดทำโดยผู้เชี่ยวชาญ

ลูกเต๋า/990

  • คำอธิบายการกำหนดค่า : ชุดข้อมูล 990 มีการสนทนา 990 รายการที่ได้รับการจัดอันดับโดยกลุ่มผู้ประเมินที่หลากหลายซึ่งมีผู้ประเมินที่ไม่ซ้ำกัน 173 คน การสนทนาแต่ละครั้งจะได้รับการจัดอันดับเป็นหมวดหมู่ความปลอดภัยสูงสุดสามหมวดหมู่ และคำถามเพื่อความเข้าใจในการสนทนาโดยรวมหนึ่งคำถาม มีการคัดเลือกผู้ประเมินเพื่อให้จำนวนผู้ประเมินสำหรับการสนทนาแต่ละครั้งมีความสมดุลตามเพศ (ผู้ชาย ผู้หญิง) และสถานที่ (สหรัฐอเมริกา อินเดีย) ผู้ประเมินแต่ละคนให้คะแนนเพียงตัวอย่างการสนทนาเท่านั้น การสนทนาแต่ละครั้งมีคะแนนไม่ซ้ำกัน 60-70 คะแนน จำนวนแถวทั้งหมดในชุดข้อมูลนี้คือ 72103

  • ขนาดดาวน์โหลด : 48.06 MiB

  • ขนาดชุดข้อมูล : 150.38 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): เฉพาะเมื่อ shuffle_files=False (train)

  • แยก :

แยก ตัวอย่าง
'train' 72,103
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
Q1_การประเมินการสนทนาทั้งหมด ClassLabel int64 ให้คะแนนเกี่ยวกับความเข้าใจในการสนทนา
Q2_harmful_content_explicitly_sex ClassLabel int64
Q2_harmful_content_financial_advice ClassLabel int64
Q2_harmful_content_harm_to_people_or_animals ClassLabel int64
ข้อเรียกร้องข้อที่ 2_harmful_content_health_and_safety_claims ClassLabel int64
Q2_harmful_content_how_tos_about_harmful_activities ClassLabel int64
Q2_harmful_content_obscenities_or_profanities ClassLabel int64
Q2_harmful_content_อื่นๆ ClassLabel int64
Q2_harmful_content_โดยรวม ClassLabel int64
Q2_harmful_content_personal_information ClassLabel int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_ถูกควบคุม_สินค้า ClassLabel int64
Q2_harmful_content_promotes_or_condones_violence ClassLabel int64
Q2_harmful_content_violent_or_gory ClassLabel int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above ClassLabel int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_เป็นอันตราย ClassLabel int64
Q3_อคติ_ชักชวน_ความเกลียดชัง ClassLabel int64
Q3_bias_insults_about_emotional_romantic_and_or_sex_attraction ClassLabel int64
Q3_อคติ_อื่นๆ ClassLabel int64
Q3_อคติทางกายภาพ_หรือ_จิต_ด้อยกว่า ClassLabel int64
Q3_อคติ_subhuman_comparisons ClassLabel int64
Q3_bias_superiority_or_subjugation_of_a_group ClassLabel int64
Q3_unfair_bias_โดยรวม ClassLabel int64
Q4_ข้อมูลที่ผิด_ทฤษฎีสมรู้ร่วมคิด ClassLabel int64
Q4_ข้อมูลที่ไม่ถูกต้อง_ขัดแย้งกับผู้เชี่ยวชาญ_ฉันทามติ ClassLabel int64
Q4_ข้อมูลเท็จ_เท็จ_ทฤษฎี ClassLabel int64
Q4_ข้อมูลที่ผิด_อื่นๆ ClassLabel int64
Q4_ข้อมูลที่ไม่ถูกต้อง_โดยรวม ClassLabel int64
Q4_ข้อมูลที่ผิด_การเมือง ClassLabel int64
Q_โดยรวม ClassLabel int64
บริบท ข้อความ เชือก การสนทนาจะเปลี่ยนก่อนการตอบกลับแชทบอทครั้งสุดท้าย
องศา_ของ_อันตราย ClassLabel int64 การจัดระดับความรุนแรงของความเสี่ยงด้านความปลอดภัยที่มีคำอธิบายประกอบด้วยมือ
harm_type ลำดับ(ClassLabel) (ไม่มี,) int64 หัวข้อสนทนาที่เป็นอันตรายที่มีคำอธิบายประกอบด้วยมือ
รหัส สเกลาร์ int64 ตัวระบุที่เป็นตัวเลขสำหรับแต่ละแถว ซึ่งแสดงถึงการให้คะแนนทั้งหมดโดยผู้ประเมินรายเดียวต่อการสนทนาเดียว
item_id สเกลาร์ int64 ตัวระบุที่เป็นตัวเลขสำหรับแต่ละการสนทนา
เฟส ClassLabel int64 หนึ่งในสามช่วงเวลาที่แตกต่างกัน
อัตรา_อายุ ClassLabel int64 กลุ่มอายุของผู้ประเมิน
Rater_การศึกษา ClassLabel int64 การศึกษาของผู้ประเมิน
Rater_gender ClassLabel int64 เพศของผู้ประเมิน
ผู้ประเมิน_id สเกลาร์ int64 ตัวระบุที่เป็นตัวเลขสำหรับผู้ประเมินแต่ละคน
Rater_locale ClassLabel int64 สถานที่ของผู้ประเมิน
Rater_race ClassLabel int64 เชื้อชาติ/ชาติพันธุ์ของผู้ประเมิน
Rater_raw_race ข้อความ เชือก เชื้อชาติ/ชาติพันธุ์ที่รายงานด้วยตนเองของผู้ประเมิน ก่อนที่จะลดความซับซ้อนเป็นห้าหมวดหมู่
การตอบสนอง ข้อความ เชือก การตอบกลับแชทบอทครั้งสุดท้ายในการสนทนา