- বর্ণনা :
Civil Comments Dataset-এর এই সংস্করণটি প্রাথমিক সাতটি লেবেলে অ্যাক্সেস প্রদান করে যা ভিড় কর্মীদের দ্বারা টীকা করা হয়েছিল, বিষাক্ততা এবং অন্যান্য ট্যাগগুলি 0 এবং 1 এর মধ্যে একটি মান যা মন্তব্য পাঠে এই বৈশিষ্ট্যগুলি বরাদ্দ করে এমন টীকাকারের ভগ্নাংশ নির্দেশ করে৷
অন্যান্য ট্যাগগুলি শুধুমাত্র ইনপুট উদাহরণগুলির একটি ভগ্নাংশের জন্য উপলব্ধ৷ তারা বর্তমানে প্রধান ডেটাসেটের জন্য উপেক্ষা করা হয়েছে; CivilCommentsIdentities সেট এই লেবেলগুলিকে অন্তর্ভুক্ত করে, কিন্তু শুধুমাত্র তাদের সাথে ডেটার উপসেট নিয়ে গঠিত। অন্যান্য বৈশিষ্ট্যগুলি যেগুলি মূল Civilcomments প্রকাশের অংশ ছিল শুধুমাত্র কাঁচা ডেটাতে অন্তর্ভুক্ত করা হয়েছে৷ উপলব্ধ বৈশিষ্ট্য সম্পর্কে আরো বিস্তারিত জানার জন্য Kaggle ডকুমেন্টেশন দেখুন.
এই ডেটাসেটের মন্তব্যগুলি সিভিল মন্তব্য প্ল্যাটফর্মের একটি সংরক্ষণাগার থেকে এসেছে, স্বাধীন সংবাদ সাইটের জন্য একটি মন্তব্যকারী প্লাগইন। এই সর্বজনীন মন্তব্যগুলি 2015 - 2017 থেকে তৈরি করা হয়েছিল এবং সারা বিশ্ব জুড়ে প্রায় 50টি ইংরেজি ভাষার সংবাদ সাইটে উপস্থিত হয়েছিল৷ 2017 সালে যখন সিভিল কমেন্ট বন্ধ হয়ে যায়, তখন তারা ভবিষ্যৎ গবেষণাকে সক্ষম করার জন্য একটি স্থায়ী ওপেন আর্কাইভে সর্বজনীন মন্তব্যগুলি উপলব্ধ করা বেছে নেয়। ফিগশেয়ারে প্রকাশিত আসল ডেটাতে পাবলিক কমেন্ট টেক্সট, কিছু সম্পর্কিত মেটাডেটা যেমন আর্টিকেল আইডি, প্রকাশনা আইডি, টাইমস্ট্যাম্প এবং মন্তব্যকারীর দ্বারা তৈরি করা "সিভিলিটি" লেবেল অন্তর্ভুক্ত থাকে, কিন্তু ব্যবহারকারী আইডি অন্তর্ভুক্ত করে না। বিষাক্ততা, পরিচয় উল্লেখ, সেইসাথে গোপন আপত্তিকরতার জন্য অতিরিক্ত লেবেল যোগ করে জিগস এই ডেটাসেটটিকে প্রসারিত করেছে। এই ডেটা সেটটি টক্সিসিটি ক্লাসিফিকেশন কাগল চ্যালেঞ্জের জিগসঅ অনিচ্ছাকৃত পক্ষপাতের জন্য প্রকাশিত ডেটার একটি সঠিক প্রতিরূপ। এই ডেটাসেটটি CC0 এর অধীনে প্রকাশিত হয়েছে, যেমনটি অন্তর্নিহিত মন্তব্য পাঠ্য।
নাগরিক মন্তব্যের ডেটাতেও একটি parent_id আছে এমন মন্তব্যের জন্য, পূর্ববর্তী মন্তব্যের পাঠ্য "parent_text" বৈশিষ্ট্য হিসাবে প্রদান করা হয়। মনে রাখবেন যে এই তথ্য বিবেচনা না করেই বিভাজন করা হয়েছিল, তাই পূর্ববর্তী মন্তব্যগুলি ব্যবহার করে কিছু তথ্য ফাঁস হতে পারে। লেবেল তৈরি করার সময় টীকাকারদের মূল পাঠ্যের অ্যাক্সেস ছিল না।
হোমপেজ : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
সোর্স কোড :
tfds.text.CivilComments
সংস্করণ :
-
1.0.0
: প্রাথমিক পূর্ণ প্রকাশ। -
1.0.1
: প্রতিটি মন্তব্যের জন্য একটি অনন্য আইডি যোগ করা হয়েছে। -
1.1.0
: Civil CommentCovert কনফিগারেশন যোগ করা হয়েছে। -
1.1.1
: সঠিক চেকসাম সহ Civil CommentCovert কনফিগারেশন যোগ করা হয়েছে। -
1.1.2
: Civil CommentsCovert ডেটাসেটের জন্য আলাদা উদ্ধৃতি যোগ করা হয়েছে। -
1.1.3
: ফ্লোট থেকে স্ট্রিং পর্যন্ত আইডি প্রকার সংশোধন করা হয়েছে। -
1.2.0
: বিষাক্ত স্প্যান, প্রসঙ্গ এবং অভিভাবক মন্তব্য পাঠ্য বৈশিষ্ট্য যোগ করুন। -
1.2.1
: প্রসঙ্গ বিভাজনে ভুল বিন্যাস ঠিক করুন। -
1.2.2
: প্রসঙ্গ প্রতিফলিত করার জন্য আপডেট করুন শুধুমাত্র একটি ট্রেন বিভক্ত। -
1.2.3
: আমরা একটি ডেটা সমস্যা সমাধান করার সাথে সাথে Civil CommentsCovert-এ সতর্কতা যোগ করুন। -
1.2.4
(ডিফল্ট): প্রকাশনা আইডি এবং মন্তব্য টাইমস্ট্যাম্প যোগ করুন।
-
ডাউনলোড সাইজঃ
427.41 MiB
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
Civil_comments/Civil Comments (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : এখানে সেট করা নাগরিক মন্তব্যগুলি সমস্ত ডেটা অন্তর্ভুক্ত করে, তবে শুধুমাত্র মৌলিক সাতটি লেবেল (বিষাক্ততা, গুরুতর_বিষাক্ততা, অশ্লীল, হুমকি, অপমান, পরিচয়_আক্রমণ, এবং যৌন_স্পষ্ট)।
ডেটাসেটের আকার :
1.54 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 97,320 |
'train' | 1,804,874 |
'validation' | 97,320 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নিবন্ধ_আইডি | টেনসর | int32 | ||
তৈরীর তারিখ | টেনসর | স্ট্রিং | ||
আইডি | টেনসর | স্ট্রিং | ||
পরিচয়_আক্রমণ | টেনসর | float32 | ||
অপমান | টেনসর | float32 | ||
অশ্লীল | টেনসর | float32 | ||
অভিভাবক আইডি | টেনসর | int32 | ||
parent_text | পাঠ্য | স্ট্রিং | ||
publication_id | টেনসর | স্ট্রিং | ||
মারাত্মক_বিষাক্ততা | টেনসর | float32 | ||
যৌন_স্পষ্ট | টেনসর | float32 | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
হুমকি | টেনসর | float32 | ||
বিষাক্ততা | টেনসর | float32 |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('text', 'toxicity')
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
নাগরিক_মন্তব্য/সিভিল মন্তব্য পরিচয়
কনফিগারেশনের বিবরণ : এখানে সেট করা Civil CommentsIdentities-এ মৌলিক সাতটি লেবেল ছাড়াও পরিচয় লেবেলের একটি বর্ধিত সেট অন্তর্ভুক্ত রয়েছে। যাইহোক, এটি শুধুমাত্র এই সমস্ত বৈশিষ্ট্য সহ ডেটার উপসেট (প্রায় এক চতুর্থাংশ) অন্তর্ভুক্ত করে।
ডেটাসেটের আকার :
654.97 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 21,577 |
'train' | 405,130 |
'validation' | 21,293 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নিবন্ধ_আইডি | টেনসর | int32 | ||
এশিয়ান | টেনসর | float32 | ||
নাস্তিক | টেনসর | float32 | ||
উভকামী | টেনসর | float32 | ||
কালো | টেনসর | float32 | ||
বৌদ্ধ | টেনসর | float32 | ||
খ্রিস্টান | টেনসর | float32 | ||
তৈরীর তারিখ | টেনসর | স্ট্রিং | ||
মহিলা | টেনসর | float32 | ||
বিষমকামী | টেনসর | float32 | ||
হিন্দু | টেনসর | float32 | ||
সমকামী_সমকামী_বা_লেসবিয়ান | টেনসর | float32 | ||
আইডি | টেনসর | স্ট্রিং | ||
পরিচয়_আক্রমণ | টেনসর | float32 | ||
অপমান | টেনসর | float32 | ||
বুদ্ধিবৃত্তিক_বা_শিক্ষা_অক্ষমতা | টেনসর | float32 | ||
ইহুদি | টেনসর | float32 | ||
ল্যাটিনো | টেনসর | float32 | ||
পুরুষ | টেনসর | float32 | ||
মুসলিম | টেনসর | float32 | ||
অশ্লীল | টেনসর | float32 | ||
অন্যান্য_অক্ষমতা | টেনসর | float32 | ||
অন্য_লিঙ্গ | টেনসর | float32 | ||
অন্য_জাতি_বা_জাতিগত | টেনসর | float32 | ||
অন্য_ধর্ম | টেনসর | float32 | ||
অন্যান্য_যৌন_অভিমুখী | টেনসর | float32 | ||
অভিভাবক আইডি | টেনসর | int32 | ||
parent_text | পাঠ্য | স্ট্রিং | ||
শারীরিক_অক্ষমতা | টেনসর | float32 | ||
মানসিক_বা_মানসিক_অসুখ | টেনসর | float32 | ||
publication_id | টেনসর | স্ট্রিং | ||
মারাত্মক_বিষাক্ততা | টেনসর | float32 | ||
যৌন_স্পষ্ট | টেনসর | float32 | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
হুমকি | টেনসর | float32 | ||
বিষাক্ততা | টেনসর | float32 | ||
ট্রান্সজেন্ডার | টেনসর | float32 | ||
সাদা | টেনসর | float32 |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('text', 'toxicity')
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments/Civil CommentsCovert
- কনফিগারেশনের বিবরণ : সতর্কতা: CivilCommentsCovert-এর সাথে একটি সম্ভাব্য ডেটা মানের সমস্যা রয়েছে যা আমরা সমাধানের জন্য সক্রিয়ভাবে কাজ করছি (06/28/22); অন্তর্নিহিত তথ্য পরিবর্তন হতে পারে!
CivilCommentsCovert সেট হল CivilcommentsIdentities-এর একটি উপসেট যার ~20% ট্রেন এবং টেস্ট স্প্লিটগুলি বিষাক্ততা এবং পরিচয় লেবেল ছাড়াও গোপন আপত্তিকরতার জন্য আরও টীকা করা হয়েছে। রেটারদের মন্তব্যগুলিকে স্পষ্টভাবে, অন্তর্নিহিতভাবে, না, বা আপত্তিকর কিনা তা নিশ্চিত না, সেইসাথে এতে বিভিন্ন ধরনের গোপন আপত্তিকরতা রয়েছে কিনা তা শ্রেণীবদ্ধ করতে বলা হয়েছিল। সম্পূর্ণ টীকা পদ্ধতিটি https://sites.google.com/corp/view/hciandnlp/accepted-papers- এ একটি আসন্ন কাগজে বিস্তারিত আছে
ডেটাসেটের আকার :
97.83 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,455 |
'train' | ৪৮,০৭৪ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নিবন্ধ_আইডি | টেনসর | int32 | ||
এশিয়ান | টেনসর | float32 | ||
নাস্তিক | টেনসর | float32 | ||
উভকামী | টেনসর | float32 | ||
কালো | টেনসর | float32 | ||
বৌদ্ধ | টেনসর | float32 | ||
খ্রিস্টান | টেনসর | float32 | ||
গোপন_ইমোটিকন_ইমোজি | টেনসর | float32 | ||
গোপন_কৌতুক | টেনসর | float32 | ||
গোপন_মাস্কড_ক্ষতি | টেনসর | float32 | ||
গোপন_মাইক্রো আগ্রাসন | টেনসর | float32 | ||
গোপন_অস্পষ্টতা | টেনসর | float32 | ||
গোপন_রাজনৈতিক | টেনসর | float32 | ||
গোপন_ব্যঙ্গ | টেনসর | float32 | ||
তৈরীর তারিখ | টেনসর | স্ট্রিং | ||
স্পষ্টভাবে_আপত্তিকর | টেনসর | float32 | ||
মহিলা | টেনসর | float32 | ||
বিষমকামী | টেনসর | float32 | ||
হিন্দু | টেনসর | float32 | ||
সমকামী_সমকামী_বা_লেসবিয়ান | টেনসর | float32 | ||
আইডি | টেনসর | স্ট্রিং | ||
পরিচয়_আক্রমণ | টেনসর | float32 | ||
অন্তর্নিহিত_আপত্তিকর | টেনসর | float32 | ||
অপমান | টেনসর | float32 | ||
বুদ্ধিবৃত্তিক_বা_শিক্ষা_অক্ষমতা | টেনসর | float32 | ||
ইহুদি | টেনসর | float32 | ||
ল্যাটিনো | টেনসর | float32 | ||
পুরুষ | টেনসর | float32 | ||
মুসলিম | টেনসর | float32 | ||
আপত্তিকর নয় | টেনসর | float32 | ||
না_নিশ্চিত_আপত্তিকর | টেনসর | float32 | ||
অশ্লীল | টেনসর | float32 | ||
অন্যান্য_অক্ষমতা | টেনসর | float32 | ||
অন্য_লিঙ্গ | টেনসর | float32 | ||
অন্য_জাতি_বা_জাতিগত | টেনসর | float32 | ||
অন্য_ধর্ম | টেনসর | float32 | ||
অন্যান্য_যৌন_অভিমুখী | টেনসর | float32 | ||
অভিভাবক আইডি | টেনসর | int32 | ||
parent_text | পাঠ্য | স্ট্রিং | ||
শারীরিক_অক্ষমতা | টেনসর | float32 | ||
মানসিক_বা_মানসিক_অসুখ | টেনসর | float32 | ||
publication_id | টেনসর | স্ট্রিং | ||
মারাত্মক_বিষাক্ততা | টেনসর | float32 | ||
যৌন_স্পষ্ট | টেনসর | float32 | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
হুমকি | টেনসর | float32 | ||
বিষাক্ততা | টেনসর | float32 | ||
ট্রান্সজেন্ডার | টেনসর | float32 | ||
সাদা | টেনসর | float32 |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('text', 'toxicity')
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
Civil_comments/Civil CommentsToxicSpans
কনফিগারেশনের বিবরণ : সিভিলকমেন্টস টক্সিক স্প্যান হল সিভিলকমেন্টের একটি উপসেট যা স্প্যান লেভেলে লেবেল করা হয় - সমস্ত ক্যারেক্টার (ইউনিকোড কোডপয়েন্ট) সীমানাগুলির সূচকগুলি যেগুলি বেশিরভাগ টক্সিক হিসাবে ট্যাগ করা হয়েছিল একটি 'স্প্যান' বৈশিষ্ট্যে ফেরত দেওয়া হয়।
ডেটাসেটের আকার :
5.81 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,000 |
'train' | 7,939 |
'validation' | 682 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নিবন্ধ_আইডি | টেনসর | int32 | ||
তৈরীর তারিখ | টেনসর | স্ট্রিং | ||
আইডি | টেনসর | স্ট্রিং | ||
অভিভাবক আইডি | টেনসর | int32 | ||
parent_text | পাঠ্য | স্ট্রিং | ||
publication_id | টেনসর | স্ট্রিং | ||
স্প্যান | টেনসর | (কোনটিই নয়,) | int32 | |
পাঠ্য | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (দেখুন
as_supervised
doc ):('text', 'spans')
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
Civil_comments/Civil CommentsIn Context
কনফিগারেশনের বিবরণ : প্রসঙ্গে CivilComments হল Civil Comments এর একটি উপসেট যা লেবেলারদের parent_text উপলব্ধ করে লেবেল করা হয়েছিল। এটি একটি প্রাসঙ্গিক_বিষাক্ততা বৈশিষ্ট্য অন্তর্ভুক্ত করে।
ডেটাসেটের আকার :
9.63 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ৯,৯৬৯ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নিবন্ধ_আইডি | টেনসর | int32 | ||
প্রাসঙ্গিক_বিষাক্ততা | টেনসর | float32 | ||
তৈরীর তারিখ | টেনসর | স্ট্রিং | ||
আইডি | টেনসর | স্ট্রিং | ||
পরিচয়_আক্রমণ | টেনসর | float32 | ||
অপমান | টেনসর | float32 | ||
অশ্লীল | টেনসর | float32 | ||
অভিভাবক আইডি | টেনসর | int32 | ||
parent_text | পাঠ্য | স্ট্রিং | ||
publication_id | টেনসর | স্ট্রিং | ||
মারাত্মক_বিষাক্ততা | টেনসর | float32 | ||
যৌন_স্পষ্ট | টেনসর | float32 | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
হুমকি | টেনসর | float32 | ||
বিষাক্ততা | টেনসর | float32 |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('text', 'toxicity')
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}