- বর্ণনা :
নিরাপত্তার জন্য কথোপকথনমূলক এআই মূল্যায়নের বৈচিত্র্য ( DICES ) ডেটাসেট৷
মেশিন লার্নিং পন্থাগুলি প্রায়শই প্রশিক্ষিত এবং ডেটাসেটগুলির সাথে মূল্যায়ন করা হয় যেগুলির জন্য ইতিবাচক এবং নেতিবাচক উদাহরণগুলির মধ্যে একটি স্পষ্ট বিচ্ছেদ প্রয়োজন৷ এই পদ্ধতিটি অনেকগুলি কাজ এবং বিষয়বস্তু আইটেমগুলিতে উপস্থিত প্রাকৃতিক সাবজেক্টিভিটিকে অতিমাত্রায় সরল করে। এটি মানুষের উপলব্ধি এবং মতামতের অন্তর্নিহিত বৈচিত্র্যকেও অস্পষ্ট করে। প্রায়শই যে কাজগুলি মানুষের মধ্যে বিষয়বস্তু এবং বৈচিত্র্যের বৈচিত্র্য রক্ষা করার চেষ্টা করে তা বেশ ব্যয়বহুল এবং শ্রমসাধ্য। এই শূন্যতা পূরণ করতে এবং আরও গভীরভাবে মডেল পারফরম্যান্স বিশ্লেষণের সুবিধার্থে আমরা DICES ডেটাসেট প্রস্তাব করছি - এআই জেনারেট কথোপকথনের নিরাপত্তার বিভিন্ন দৃষ্টিকোণ সহ একটি অনন্য ডেটাসেট। আমরা কথোপকথনমূলক এআই সিস্টেমের নিরাপত্তা মূল্যায়নের কাজটির উপর ফোকাস করি। DICES ডেটাসেটে প্রতিটি রেটার সম্পর্কে বিস্তারিত জনসংখ্যা সংক্রান্ত তথ্য রয়েছে, আরও বিশ্লেষণের পরিসংখ্যানগত তাত্পর্য নিশ্চিত করতে কথোপকথনের প্রতি অনন্য রেটিংগুলির অত্যন্ত উচ্চ প্রতিলিপি এবং বিভিন্ন রেটিং সমষ্টি কৌশলগুলির গভীরভাবে অন্বেষণের জন্য বিভিন্ন জনসংখ্যা জুড়ে বিতরণ হিসাবে রেটার ভোটগুলিকে এনকোড করে৷
এই ডেটাসেটটি কথোপকথনমূলক এআই-এর নিরাপত্তার প্রেক্ষাপটে বৈচিত্র্য, অস্পষ্টতা এবং বৈচিত্র্য পর্যবেক্ষণ এবং পরিমাপ করার জন্য উপযুক্ত। ডেটাসেটটির সাথে মেট্রিক্সের একটি সেট বর্ণনা করে একটি কাগজ রয়েছে যা দেখায় যে কীভাবে রেটার বৈচিত্র্য বিভিন্ন ভৌগলিক অঞ্চল, জাতিগোষ্ঠী, বয়স গোষ্ঠী এবং লিঙ্গ থেকে রেটারদের নিরাপত্তা উপলব্ধিকে প্রভাবিত করে। DICES ডেটাসেটের লক্ষ্য হল কথোপকথনমূলক এআই সিস্টেমগুলির নিরাপত্তা মূল্যায়নের জন্য একটি ভাগ করা বেঞ্চমার্ক হিসাবে ব্যবহার করা।
বিষয়বস্তু সতর্কতা : এই ডেটাসেটে কথোপকথনের প্রতিপক্ষ উদাহরণ রয়েছে যা আপত্তিকর হতে পারে।
হোমপেজ : https://github.com/google-research-datasets/dices-dataset
সোর্স কোড :
tfds.datasets.dices.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{aroyo2024dices,
title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2024}
}
ডাইস/350 (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : ডেটাসেট 350-এ 123টি অনন্য রেটারের একটি বৈচিত্র্যপূর্ণ রেটার পুল দ্বারা রেট করা 350টি কথোপকথন রয়েছে। প্রতিটি কথোপকথন পাঁচটি নিরাপত্তা শীর্ষ-স্তরের বিভাগ এবং কথোপকথনের একটি সামগ্রিক বোঝার প্রশ্ন দিয়ে রেট করা হয়েছে। রেটারদের নিয়োগ করা হয়েছিল লিঙ্গ (পুরুষ বা মহিলা), জাতি/জাতিগত (সাদা, কালো, ল্যাটিন, এশিয়ান, বহুজাতিক) দ্বারা ভারসাম্যপূর্ণ এবং প্রতিটি রেটার সমস্ত আইটেমকে রেট দিয়েছে। প্রতিটি রেটার সব কথোপকথন রেট. প্রতিটি কথোপকথনে 123টি অনন্য রেটিং রয়েছে। এই ডেটাসেটে মোট সারির সংখ্যা 43050।
ডাউনলোডের আকার :
29.70 MiB
ডেটাসেটের আকার :
74.43 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ৪৩,০৫০ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
'safety_gold_reason': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
Q1_পুরো_কথোপকথন_মূল্যায়ন | ক্লাসলেবেল | int64 | কথোপকথনের বোধগম্যতা সম্পর্কে রেটিং। | |
Q2_ক্ষতিকর_বস্তু_বিপজ্জনক_সামগ্রী | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_বিষয়বস্তু_অবমাননা_অফ_নৌকা | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_সংবেদনশীল | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_চিকিৎসা_আইনি_আর্থিক_বা_সম্পর্ক_পরামর্শ | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_বস্তু_অশ্লীল_এবং_অপবিত্র | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_অন্যান্য | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_সামগ্রিক | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_ব্যক্তিগত_তথ্য | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_নিয়ন্ত্রিত_পণ্য | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_যৌন_সাজেস্টিক_কন্টেন্ট | ক্লাসলেবেল | int64 | ||
Q3_বায়াস_অন্যান্য | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_সামগ্রিক | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_লক্ষ্যায়ন_বিশ্বাস | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_লক্ষ্য নির্ধারণ_লিঙ্গ_যৌন_অভিযোজন | ক্লাসলেবেল | int64 | ||
Q3_বায়াস_টার্গেটিং_উত্তরাধিকারী_গুণাবলী | ক্লাসলেবেল | int64 | ||
Q3_বায়াস_টার্গেটিং_স্ট্যাটাস | ক্লাসলেবেল | int64 | ||
Q4_ভুল তথ্য | ক্লাসলেবেল | int64 | ||
প্রশ্ন5_রাজনৈতিক_অনুষঙ্গ | ক্লাসলেবেল | int64 | ||
Q6_নীতি_নির্দেশনা_প্রণয়ন_সমর্থন | ক্লাসলেবেল | int64 | ||
Q6_নীতি_নির্দেশিকা_অন্যান্য | ক্লাসলেবেল | int64 | ||
Q6_নীতি_নির্দেশনা_সামগ্রিক | ক্লাসলেবেল | int64 | ||
Q6_নীতি_নির্দেশনা_পোলারাইজিং_বিষয় | ক্লাসলেবেল | int64 | ||
প্রশ্ন_সামগ্রিক | ক্লাসলেবেল | int64 | ||
উত্তর_সময়_এমএস | স্কেলার | int64 | প্রতিটি নিরাপত্তা টীকা প্রশ্নে প্রতিটি রেটার দ্বারা ব্যয় করা সময়ের পরিমাণ। | |
উত্তর_টাইমস্ট্যাম্প | স্কেলার | int64 | সময় যখন প্রতিটি কথোপকথন প্রতিটি রেটার দ্বারা রেট করা হয়েছে। | |
প্রসঙ্গ | পাঠ্য | স্ট্রিং | চূড়ান্ত চ্যাটবট প্রতিক্রিয়ার আগে কথোপকথন মোড় নেয়। | |
ক্ষতির_ডিগ্রী | ক্লাসলেবেল | int64 | নিরাপত্তা ঝুঁকির তীব্রতার হ্যান্ড-নোটেটেড রেটিং। | |
ক্ষতি_টাইপ | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | কথোপকথনের হ্যান্ড-নোটেটেড ক্ষতির বিষয়(গুলি)। |
আইডি | স্কেলার | int64 | প্রতিটি সারির জন্য সংখ্যাসূচক শনাক্তকারী, একটি একক কথোপকথনে একটি একক রেটার দ্বারা সমস্ত রেটিং উপস্থাপন করে৷ | |
আইটেম_আইডি | স্কেলার | int64 | প্রতিটি কথোপকথনের জন্য সংখ্যাসূচক শনাক্তকারী। | |
পর্যায় | ক্লাসলেবেল | int64 | তিনটি স্বতন্ত্র সময়ের একটি। | |
rater_age | ক্লাসলেবেল | int64 | রেটারের বয়স গ্রুপ। | |
rater_education | ক্লাসলেবেল | int64 | রাটার শিক্ষা। | |
rater_gender | ক্লাসলেবেল | int64 | রেটারের লিঙ্গ। | |
rater_id | স্কেলার | int64 | প্রতিটি রেটারের জন্য সংখ্যাসূচক শনাক্তকারী। | |
rater_race | ক্লাসলেবেল | int64 | রেটারের জাতি/জাতি। | |
rater_raw_race | পাঠ্য | স্ট্রিং | পাঁচটি বিভাগে সরলীকরণের আগে রেটারের স্ব-প্রতিবেদিত কাঁচা জাতি/জাতিগততা। | |
প্রতিক্রিয়া | পাঠ্য | স্ট্রিং | কথোপকথনে চূড়ান্ত চ্যাটবট প্রতিক্রিয়া। | |
নিরাপত্তা_স্বর্ণ | ক্লাসলেবেল | int64 | বিশেষজ্ঞদের দ্বারা প্রদত্ত সোনার মান নিরাপত্তা লেবেল। | |
নিরাপত্তা_স্বর্ণ_কারণ | পাঠ্য | স্ট্রিং | বিশেষজ্ঞদের দ্বারা প্রদত্ত সোনার নিরাপত্তা লেবেলের কারণ(গুলি) (যদি দেওয়া হয়)৷ |
- উদাহরণ ( tfds.as_dataframe ):
ডাইস/990
কনফিগারেশনের বিবরণ : ডেটাসেট 990-এ 173টি অনন্য রেটারের একটি বৈচিত্র্যপূর্ণ রেটার পুল দ্বারা রেট করা 990টি কথোপকথন রয়েছে। প্রতিটি কথোপকথন তিনটি নিরাপত্তা শীর্ষ-স্তরের বিভাগ এবং একটি সামগ্রিক কথোপকথন বোঝার প্রশ্ন দিয়ে রেট করা হয়েছে। রেটারদের নিয়োগ করা হয়েছিল যাতে প্রতিটি কথোপকথনের জন্য রেটারের সংখ্যা লিঙ্গ (পুরুষ, মহিলা) এবং লোকেল (মার্কিন যুক্তরাষ্ট্র, ভারত) দ্বারা ভারসাম্যপূর্ণ ছিল। প্রতিটি রেটার কথোপকথনের একটি নমুনাকে রেট দিয়েছে। প্রতিটি কথোপকথন 60-70 অনন্য রেটিং আছে. এই ডেটাসেটে মোট সারির সংখ্যা 72103।
ডাউনলোড সাইজ :
48.06 MiB
ডেটাসেটের আকার :
150.38 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 72,103 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
'context': Text(shape=(), dtype=string),
'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
'rater_raw_race': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
Q1_পুরো_কথোপকথন_মূল্যায়ন | ক্লাসলেবেল | int64 | কথোপকথনের বোধগম্যতা সম্পর্কে রেটিং। | |
Q2_ক্ষতিকর_বস্তু_স্পষ্টভাবে_যৌন | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_আর্থিক_পরামর্শ | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকারক_সামগ্রী_মানুষের_অথবা_প্রাণীদের জন্য_ক্ষতি | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_বস্তু_স্বাস্থ্য_এবং_নিরাপত্তা_দাবি | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_কীভাবে_করতে_হয়_ক্ষতিকর_ক্রিয়াকলাপ | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_বিষয়বস্তু_অশ্লীলতা_বা_অশ্লীলতা | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_অন্যান্য | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_সামগ্রিক | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_ব্যক্তিগত_তথ্য | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রীর_প্রচার_অথবা_নিয়ন্ত্রিত_সামগ্রীর_ব্যবহার | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকারক_সামগ্রী_প্রচার_বা_হিংসা_নিষেধ | ক্লাসলেবেল | int64 | ||
Q2_ক্ষতিকর_সামগ্রী_হিংসাত্মক_বা_গোরি | ক্লাসলেবেল | int64 | ||
Q3_3_জাতিগত_ধর্মীয়_অথবা_অন্যান্য_অশ্লীল_এবং_স্টেরিওটাইপস_যা_উদ্দীপনা_বা_প্রচার_বিদ্বেষ_ভিত্তিক_যেকোনো_অবশ্য_উপরে_উল্লেখিত_ | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_কলিং_ব্যক্তি_বা_গোষ্ঠী_দুষ্ট_দুর্নীতিগ্রস্ত | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_উদ্দীপনা_ঘৃণা | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_অপমান_আবেগগত_রোমান্টিক_এবং_যৌন_আকর্ষন | ক্লাসলেবেল | int64 | ||
Q3_বায়াস_অন্যান্য | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_শারীরিক_না_মানসিক_নিকৃষ্ট | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাতিত্ব_সবমানব_তুলনা | ক্লাসলেবেল | int64 | ||
Q3_পক্ষপাত_শ্রেষ্ঠতা_অথবা_একটি_গোষ্ঠীর_অধীনতা | ক্লাসলেবেল | int64 | ||
Q3_অন্যায়_পক্ষপাত_সামগ্রিক | ক্লাসলেবেল | int64 | ||
Q4_ভুল তথ্য_ষড়যন্ত্র_তত্ত্ব | ক্লাসলেবেল | int64 | ||
Q4_ভুল তথ্য_বিরোধিতা_বিশেষজ্ঞ_সম্মত | ক্লাসলেবেল | int64 | ||
Q4_ভুল তথ্য_মিথ্যা_তত্ত্ব | ক্লাসলেবেল | int64 | ||
Q4_ভুল তথ্য_অন্যান্য | ক্লাসলেবেল | int64 | ||
Q4_ভুল তথ্য_সামগ্রিক | ক্লাসলেবেল | int64 | ||
প্রশ্ন 4_ভুল তথ্য_রাজনৈতিক | ক্লাসলেবেল | int64 | ||
প্রশ্ন_সামগ্রিক | ক্লাসলেবেল | int64 | ||
প্রসঙ্গ | পাঠ্য | স্ট্রিং | চূড়ান্ত চ্যাটবট প্রতিক্রিয়ার আগে কথোপকথন মোড় নেয়। | |
ক্ষতির_ডিগ্রী | ক্লাসলেবেল | int64 | নিরাপত্তা ঝুঁকির তীব্রতার হ্যান্ড-নোটেটেড রেটিং। | |
ক্ষতি_টাইপ | সিকোয়েন্স (ক্লাসলেবেল) | (কোনটিই নয়,) | int64 | কথোপকথনের হ্যান্ড-নোটেটেড ক্ষতির বিষয়(গুলি)। |
আইডি | স্কেলার | int64 | প্রতিটি সারির জন্য সংখ্যাসূচক শনাক্তকারী, একটি একক কথোপকথনে একটি একক রেটার দ্বারা সমস্ত রেটিং উপস্থাপন করে৷ | |
আইটেম_আইডি | স্কেলার | int64 | প্রতিটি কথোপকথনের জন্য সংখ্যাসূচক শনাক্তকারী। | |
পর্যায় | ক্লাসলেবেল | int64 | তিনটি স্বতন্ত্র সময়ের একটি। | |
rater_age | ক্লাসলেবেল | int64 | রেটারের বয়স গ্রুপ। | |
rater_education | ক্লাসলেবেল | int64 | রাটার শিক্ষা। | |
rater_gender | ক্লাসলেবেল | int64 | রেটারের লিঙ্গ। | |
rater_id | স্কেলার | int64 | প্রতিটি রেটারের জন্য সংখ্যাসূচক শনাক্তকারী। | |
rater_locale | ক্লাসলেবেল | int64 | রেটারের লোকেল। | |
rater_race | ক্লাসলেবেল | int64 | রেটারের জাতি/জাতি। | |
rater_raw_race | পাঠ্য | স্ট্রিং | পাঁচটি বিভাগে সরলীকরণের আগে রেটারের স্ব-প্রতিবেদিত কাঁচা জাতি/জাতিগততা। | |
প্রতিক্রিয়া | পাঠ্য | স্ট্রিং | কথোপকথনে চূড়ান্ত চ্যাটবট প্রতিক্রিয়া। |
- উদাহরণ ( tfds.as_dataframe ):