- Keterangan :
Kumpulan data Keanekaragaman dalam Evaluasi AI Percakapan untuk Keselamatan ( DICES ).
Pendekatan pembelajaran mesin sering kali dilatih dan dievaluasi dengan kumpulan data yang memerlukan pemisahan yang jelas antara contoh positif dan negatif. Pendekatan ini terlalu menyederhanakan subjektivitas alami yang terdapat dalam banyak tugas dan item konten. Hal ini juga mengaburkan keragaman yang melekat dalam persepsi dan opini manusia. Seringkali tugas yang berupaya melestarikan keragaman konten dan keragaman pada manusia cukup mahal dan melelahkan. Untuk mengisi kesenjangan ini dan memfasilitasi analisis performa model yang lebih mendalam, kami mengusulkan kumpulan data DICES - kumpulan data unik dengan beragam perspektif tentang keamanan percakapan yang dihasilkan AI. Kami fokus pada tugas evaluasi keselamatan sistem AI percakapan. Kumpulan data DICES berisi informasi demografi terperinci tentang setiap penilai, replikasi peringkat unik yang sangat tinggi per percakapan untuk memastikan signifikansi statistik dari analisis lebih lanjut, dan mengkodekan suara penilai sebagai distribusi di berbagai demografi untuk memungkinkan eksplorasi mendalam atas berbagai strategi agregasi peringkat.
Kumpulan data ini sangat cocok untuk mengamati dan mengukur varians, ambiguitas, dan keragaman dalam konteks keamanan AI percakapan. Kumpulan data tersebut disertai dengan makalah yang menjelaskan serangkaian metrik yang menunjukkan bagaimana keragaman penilai memengaruhi persepsi keselamatan penilai dari wilayah geografis, kelompok etnis, kelompok umur, dan jenis kelamin yang berbeda. Tujuan dari kumpulan data DICES adalah untuk digunakan sebagai tolok ukur bersama untuk evaluasi keselamatan sistem AI percakapan.
PERINGATAN KONTEN : Kumpulan data ini berisi contoh percakapan permusuhan yang mungkin menyinggung.
Beranda : https://github.com/google-research-datasets/dices-dataset
Kode sumber :
tfds.datasets.dices.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Kunci yang diawasi (Lihat dokumen
as_supervised
):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
dadu/350 (konfigurasi default)
Deskripsi konfigurasi : Kumpulan data 350 berisi 350 percakapan yang dinilai oleh kumpulan penilai beragam yang terdiri dari 123 penilai unik. Setiap percakapan dinilai dengan lima kategori keselamatan tingkat atas dan satu pertanyaan pemahaman keseluruhan percakapan. Penilai yang direkrut diseimbangkan berdasarkan gender (pria atau wanita), ras/etnis (Putih, Hitam, Latin, Asia, Multiras) dan masing-masing penilai menilai semua item. Setiap penilai menilai semua percakapan. Setiap percakapan memiliki 123 peringkat unik. Jumlah total baris dalam kumpulan data ini adalah 43050.
Ukuran unduhan :
29.70 MiB
Ukuran kumpulan data :
74.43 MiB
Cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 43.050 |
- Struktur fitur :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Q1_keseluruhan_percakapan_evaluasi | Label Kelas | int64 | Penilaian tentang pemahaman suatu percakapan. | |
Q2_konten_berbahaya_konten_berbahaya | Label Kelas | int64 | ||
Q2_konten_berbahaya_penghinaan_kapal | Label Kelas | int64 | ||
Q2_konten_berbahaya_tidak sensitif | Label Kelas | int64 | ||
Q2_konten_berbahaya_medis_legal_keuangan_atau_saran_hubungan | Label Kelas | int64 | ||
Q2_konten_berbahaya_cabul_dan_tidak senonoh | Label Kelas | int64 | ||
Q2_konten_berbahaya_lainnya | Label Kelas | int64 | ||
Q2_konten_berbahaya_secara keseluruhan | Label Kelas | int64 | ||
Q2_konten_berbahaya_informasi_pribadi | Label Kelas | int64 | ||
Q2_konten_berbahaya_barang_yang diatur | Label Kelas | int64 | ||
Q2_konten_berbahaya_konten_menjurus_seksual_ | Label Kelas | int64 | ||
Q3_bias_lainnya | Label Kelas | int64 | ||
Q3_bias_keseluruhan | Label Kelas | int64 | ||
Q3_bias_targeting_beliefs | Label Kelas | int64 | ||
Q3_bias_targeting_gender_seksual_orientasi | Label Kelas | int64 | ||
Q3_bias_targeting_inherited_attributes | Label Kelas | int64 | ||
Q3_bias_targeting_status | Label Kelas | int64 | ||
Q4_misinformasi | Label Kelas | int64 | ||
Q5_afiliasi_politik | Label Kelas | int64 | ||
Q6_panduan_kebijakan_pembuatan_pengesahan | Label Kelas | int64 | ||
Q6_kebijakan_panduan_lainnya | Label Kelas | int64 | ||
Q6_kebijakan_panduan_keseluruhan | Label Kelas | int64 | ||
Q6_panduan_kebijakan_polarisasi_topik | Label Kelas | int64 | ||
Q_secara keseluruhan | Label Kelas | int64 | ||
jawaban_waktu_ms | Skalar | int64 | Jumlah waktu yang dihabiskan oleh setiap penilai pada setiap pertanyaan anotasi keselamatan. | |
jawaban_cap waktu | Skalar | int64 | Waktu ketika setiap percakapan dinilai oleh masing-masing penilai. | |
konteks | Teks | rangkaian | Percakapan beralih sebelum respons chatbot terakhir. | |
derajat_bahaya | Label Kelas | int64 | Peringkat tingkat keparahan risiko keselamatan yang diberi catatan tangan. | |
tipe_bahaya | Urutan (Label Kelas) | (Tidak ada,) | int64 | Topik pembicaraan yang merugikan dengan anotasi tangan. |
pengenal | Skalar | int64 | Pengidentifikasi numerik untuk setiap baris, mewakili semua peringkat oleh satu penilai untuk satu percakapan. | |
item_id | Skalar | int64 | Pengidentifikasi numerik untuk setiap percakapan. | |
fase | Label Kelas | int64 | Salah satu dari tiga periode waktu yang berbeda. | |
penilai_usia | Label Kelas | int64 | Kelompok usia penilai. | |
penilai_pendidikan | Label Kelas | int64 | Pendidikan penilai. | |
penilai_gender | Label Kelas | int64 | Jenis kelamin penilai. | |
penilai_id | Skalar | int64 | Pengidentifikasi numerik untuk setiap penilai. | |
penilai_ras | Label Kelas | int64 | Ras/etnis penilai. | |
penilai_ras_mentah | Teks | rangkaian | Ras/etnis mentah penilai yang dilaporkan sendiri, sebelum disederhanakan menjadi lima kategori. | |
tanggapan | Teks | rangkaian | Respons chatbot terakhir dalam percakapan. | |
keamanan_emas | Label Kelas | int64 | Label keamanan standar emas yang diberikan oleh para ahli. | |
alasan_keamanan_emas | Teks | rangkaian | Alasan (jika diberikan) label keamanan emas diberikan oleh para ahli. |
- Contoh ( tfds.as_dataframe ):
dadu/990
Deskripsi konfigurasi : Kumpulan data 990 berisi 990 percakapan yang dinilai oleh kumpulan penilai beragam yang terdiri dari 173 penilai unik. Setiap percakapan dinilai dengan tiga kategori keamanan tingkat atas dan satu pertanyaan pemahaman percakapan secara keseluruhan. Penilai direkrut sehingga jumlah penilai untuk setiap percakapan seimbang berdasarkan gender (Pria, Wanita) dan lokasi (AS, India). Setiap penilai hanya menilai sampel percakapan. Setiap percakapan memiliki 60-70 peringkat unik. Jumlah total baris dalam kumpulan data ini adalah 72103.
Ukuran unduhan :
48.06 MiB
Ukuran kumpulan data :
150.38 MiB
Cache otomatis ( dokumentasi ): Hanya ketika
shuffle_files=False
(kereta)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 72.103 |
- Struktur fitur :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Tipe D | Keterangan |
---|---|---|---|---|
FiturDict | ||||
Q1_keseluruhan_percakapan_evaluasi | Label Kelas | int64 | Penilaian tentang pemahaman suatu percakapan. | |
Q2_konten_berbahaya_eksplisit_seksual | Label Kelas | int64 | ||
Q2_konten_berbahaya_saran_keuangan | Label Kelas | int64 | ||
Q2_konten_berbahaya_mebahayakan_manusia_atau_hewan | Label Kelas | int64 | ||
Q2_klaim_konten_berbahaya_kesehatan_dan_keselamatan | Label Kelas | int64 | ||
Q2_konten_berbahaya_bagaimana_tos_tentang_aktivitas_berbahaya | Label Kelas | int64 | ||
Q2_konten_berbahaya_obscenities_or_profanities | Label Kelas | int64 | ||
Q2_konten_berbahaya_lainnya | Label Kelas | int64 | ||
Q2_konten_berbahaya_secara keseluruhan | Label Kelas | int64 | ||
Q2_konten_berbahaya_informasi_pribadi | Label Kelas | int64 | ||
Q2_konten_berbahaya_promotes_or_condones_use_of_harmful_regulated_goods | Label Kelas | int64 | ||
Q2_konten_berbahaya_mendorong_atau_memungkinkan_kekerasan | Label Kelas | int64 | ||
Q2_konten_berbahaya_kekerasan_atau_berdarah | Label Kelas | int64 | ||
Q3_3_Ras_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above | Label Kelas | int64 | ||
Q3_bias_memanggil_individu_atau_kelompok_jahat_korup_atau_berbahaya | Label Kelas | int64 | ||
Q3_bias_menghasut_kebencian | Label Kelas | int64 | ||
Q3_bias_penghinaan_tentang_emosional_romantis_dan_atau_ketertarikan_seksual | Label Kelas | int64 | ||
Q3_bias_lainnya | Label Kelas | int64 | ||
Q3_bias_fisik_atau_mental_inferior | Label Kelas | int64 | ||
Q3_bias_subhuman_comparisons | Label Kelas | int64 | ||
Q3_bias_superioritas_atau_penaklukan_kelompok_suatu_ | Label Kelas | int64 | ||
Q3_bias_tidak adil_secara keseluruhan | Label Kelas | int64 | ||
Q4_misinformasi_konspirasi_teori | Label Kelas | int64 | ||
Q4_misinformation_contradicts_expert_consensus | Label Kelas | int64 | ||
Q4_misinformasi_teori_salah | Label Kelas | int64 | ||
Q4_misinformasi_lainnya | Label Kelas | int64 | ||
Q4_misinformasi_keseluruhan | Label Kelas | int64 | ||
Q4_misinformasi_politik | Label Kelas | int64 | ||
Q_secara keseluruhan | Label Kelas | int64 | ||
konteks | Teks | rangkaian | Percakapan beralih sebelum respons chatbot terakhir. | |
derajat_bahaya | Label Kelas | int64 | Peringkat tingkat keparahan risiko keselamatan yang diberi catatan tangan. | |
tipe_bahaya | Urutan (Label Kelas) | (Tidak ada,) | int64 | Topik pembicaraan yang merugikan dengan anotasi tangan. |
pengenal | Skalar | int64 | Pengidentifikasi numerik untuk setiap baris, mewakili semua peringkat oleh satu penilai untuk satu percakapan. | |
item_id | Skalar | int64 | Pengidentifikasi numerik untuk setiap percakapan. | |
fase | Label Kelas | int64 | Salah satu dari tiga periode waktu yang berbeda. | |
penilai_usia | Label Kelas | int64 | Kelompok usia penilai. | |
penilai_pendidikan | Label Kelas | int64 | Pendidikan penilai. | |
penilai_gender | Label Kelas | int64 | Jenis kelamin penilai. | |
penilai_id | Skalar | int64 | Pengidentifikasi numerik untuk setiap penilai. | |
penilai_lokal | Label Kelas | int64 | Lokasi penilai. | |
penilai_ras | Label Kelas | int64 | Ras/etnis penilai. | |
penilai_ras_mentah | Teks | rangkaian | Ras/etnis mentah penilai yang dilaporkan sendiri, sebelum disederhanakan menjadi lima kategori. | |
tanggapan | Teks | rangkaian | Respons chatbot terakhir dalam percakapan. |
- Contoh ( tfds.as_dataframe ):