- विवरण :
सिविलकॉमेंट्स डेटासेट का यह संस्करण उन प्राथमिक सात लेबलों तक पहुंच प्रदान करता है जिन्हें क्राउड वर्कर्स द्वारा एनोटेट किया गया था, विषाक्तता और अन्य टैग 0 और 1 के बीच का मान है जो एनोटेटर के अंश को दर्शाता है जो इन विशेषताओं को टिप्पणी पाठ में निर्दिष्ट करते हैं।
अन्य टैग केवल इनपुट उदाहरणों के एक अंश के लिए उपलब्ध हैं। उन्हें वर्तमान में मुख्य डेटासेट के लिए अनदेखा किया जाता है; CivilCommentsIdentities सेट में वे लेबल शामिल होते हैं, लेकिन केवल उनके साथ डेटा का सबसेट होता है। अन्य विशेषताएं जो मूल सिविल कॉमेंट्स रिलीज का हिस्सा थीं, केवल कच्चे डेटा में शामिल हैं। उपलब्ध सुविधाओं के बारे में अधिक जानकारी के लिए कागल दस्तावेज़ीकरण देखें।
इस डेटासेट में टिप्पणियां स्वतंत्र समाचार साइटों के लिए एक टिप्पणी प्लगइन, सिविल कमेंट प्लेटफॉर्म के एक संग्रह से आती हैं। ये सार्वजनिक टिप्पणियाँ 2015 - 2017 से बनाई गई थीं और दुनिया भर में लगभग 50 अंग्रेजी-भाषा समाचार साइटों पर दिखाई दीं। जब सिविल टिप्पणियाँ 2017 में बंद हो गईं, तो उन्होंने भविष्य के शोध को सक्षम करने के लिए सार्वजनिक टिप्पणियों को एक स्थायी खुले संग्रह में उपलब्ध कराने का विकल्प चुना। फ़िगशेयर पर प्रकाशित मूल डेटा में सार्वजनिक टिप्पणी पाठ, कुछ संबद्ध मेटाडेटा जैसे लेख आईडी, प्रकाशन आईडी, टाइमस्टैम्प और टिप्पणीकार-जनित "नागरिकता" लेबल शामिल हैं, लेकिन इसमें उपयोगकर्ता आईडी शामिल नहीं है। आरा ने इस डेटासेट को विषाक्तता, पहचान के उल्लेख के साथ-साथ गुप्त अपराध के लिए अतिरिक्त लेबल जोड़कर बढ़ाया। यह डेटा सेट विषाक्तता वर्गीकरण कागल चुनौती में आरा अनपेक्षित पूर्वाग्रह के लिए जारी किए गए डेटा की एक सटीक प्रतिकृति है। यह डेटासेट CC0 के तहत जारी किया गया है, जैसा कि अंतर्निहित टिप्पणी पाठ है।
उन टिप्पणियों के लिए जिनकी नागरिक टिप्पणियों के डेटा में भी एक parent_id है, पिछली टिप्पणी का पाठ "parent_text" सुविधा के रूप में प्रदान किया गया है। ध्यान दें कि विभाजन इस जानकारी पर ध्यान दिए बिना किए गए थे, इसलिए पिछली टिप्पणियों का उपयोग करने से कुछ जानकारी लीक हो सकती है। लेबल बनाते समय एनोटेटर के पास मूल पाठ तक पहुंच नहीं थी।
होमपेज : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
स्रोत कोड :
tfds.text.CivilComments
संस्करण :
-
1.0.0
: आरंभिक पूर्ण रिलीज। -
1.0.1
: प्रत्येक टिप्पणी के लिए एक अद्वितीय आईडी जोड़ा गया। -
1.1.0
: जोड़ा गया CivilCommentsCovert कॉन्फ़िग। -
1.1.1
: सही चेकसम के साथ जोड़ा गया CivilCommentsCovert कॉन्फ़िग। -
1.1.2
: CivilCommentsCovert डेटासेट के लिए अलग से उद्धरण जोड़ा गया। -
1.1.3
: फ्लोट से स्ट्रिंग तक सही आईडी प्रकार। -
1.2.0
: टॉक्सिक स्पैन, कॉन्टेक्स्ट और पैरेंट कमेंट टेक्स्ट फीचर जोड़ें। -
1.2.1
: संदर्भ विभाजन में गलत स्वरूपण को ठीक करें। -
1.2.2
: केवल ट्रेन के बंटने के संदर्भ को दर्शाने के लिए अपडेट करें। -
1.2.3
: जैसे ही हम डेटा समस्या का समाधान करते हैं, CivilCommentsCovert में चेतावनी जोड़ें। -
1.2.4
(डिफ़ॉल्ट): प्रकाशन आईडी और टिप्पणी टाइमस्टैम्प जोड़ें।
-
डाउनलोड आकार :
427.41 MiB
चित्र ( tfds.show_examples ): समर्थित नहीं है।
Civil_comments/CivilComments (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : यहां सेट किए गए सिविल कॉमेंट्स में सभी डेटा शामिल हैं, लेकिन केवल मूल सात लेबल (विषाक्तता, गंभीर_विषाक्तता, अश्लीलता, धमकी, अपमान, पहचान_हमला, और यौन_स्पष्ट)।
डेटासेट का आकार :
1.54 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 97,320 |
'train' | 1,804,874 |
'validation' | 97,320 |
- फ़ीचर संरचना :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
article_id | टेन्सर | int32 | ||
सृजित दिनांक | टेन्सर | डोरी | ||
पहचान | टेन्सर | डोरी | ||
Identity_Attack | टेन्सर | फ्लोट32 | ||
अपमान करना | टेन्सर | फ्लोट32 | ||
अश्लील बना | टेन्सर | फ्लोट32 | ||
माता पिता की पहचान | टेन्सर | int32 | ||
parent_text | मूलपाठ | डोरी | ||
प्रकाशन_आईडी | टेन्सर | डोरी | ||
very_toxicity | टेन्सर | फ्लोट32 | ||
sex_explicit | टेन्सर | फ्लोट32 | ||
मूलपाठ | मूलपाठ | डोरी | ||
धमकी | टेन्सर | फ्लोट32 | ||
विषाक्तता | टेन्सर | फ्लोट32 |
पर्यवेक्षित कुंजी (
as_supervised
doc देखें):('text', 'toxicity')
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
सिविल_टिप्पणियां/सिविल टिप्पणियां पहचान
Config विवरण : यहाँ सेट किए गए CivilCommentsIdentities में मूल सात लेबल के अलावा पहचान लेबल का एक विस्तारित सेट शामिल है। हालाँकि, इसमें इन सभी सुविधाओं के साथ डेटा का केवल सबसेट (लगभग एक चौथाई) शामिल है।
डेटासेट का आकार :
654.97 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 21,577 |
'train' | 405,130 |
'validation' | 21,293 |
- फ़ीचर संरचना :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
article_id | टेन्सर | int32 | ||
एशियाई | टेन्सर | फ्लोट32 | ||
नास्तिक | टेन्सर | फ्लोट32 | ||
उभयलिंगी | टेन्सर | फ्लोट32 | ||
काला | टेन्सर | फ्लोट32 | ||
बौद्ध | टेन्सर | फ्लोट32 | ||
ईसाई | टेन्सर | फ्लोट32 | ||
सृजित दिनांक | टेन्सर | डोरी | ||
महिला | टेन्सर | फ्लोट32 | ||
हेटेरोसेक्सयल | टेन्सर | फ्लोट32 | ||
हिंदू | टेन्सर | फ्लोट32 | ||
समलैंगिक_समलैंगिक_या_लेस्बियन | टेन्सर | फ्लोट32 | ||
पहचान | टेन्सर | डोरी | ||
Identity_Attack | टेन्सर | फ्लोट32 | ||
अपमान करना | टेन्सर | फ्लोट32 | ||
बौद्धिक_या_शिक्षण_अक्षमता | टेन्सर | फ्लोट32 | ||
यहूदी | टेन्सर | फ्लोट32 | ||
लातीनी | टेन्सर | फ्लोट32 | ||
नर | टेन्सर | फ्लोट32 | ||
मुसलमान | टेन्सर | फ्लोट32 | ||
अश्लील बना | टेन्सर | फ्लोट32 | ||
अन्य_विकलांगता | टेन्सर | फ्लोट32 | ||
अन्य_लिंग | टेन्सर | फ्लोट32 | ||
Other_race_or_ethnicity | टेन्सर | फ्लोट32 | ||
अन्य_धर्म | टेन्सर | फ्लोट32 | ||
अन्य_यौन_अभिविन्यास | टेन्सर | फ्लोट32 | ||
माता पिता की पहचान | टेन्सर | int32 | ||
parent_text | मूलपाठ | डोरी | ||
शारीरिक अपंगता | टेन्सर | फ्लोट32 | ||
मनोरोग_या_मानसिक_बीमारी | टेन्सर | फ्लोट32 | ||
प्रकाशन_आईडी | टेन्सर | डोरी | ||
very_toxicity | टेन्सर | फ्लोट32 | ||
sex_explicit | टेन्सर | फ्लोट32 | ||
मूलपाठ | मूलपाठ | डोरी | ||
धमकी | टेन्सर | फ्लोट32 | ||
विषाक्तता | टेन्सर | फ्लोट32 | ||
ट्रांसजेंडर | टेन्सर | फ्लोट32 | ||
सफ़ेद | टेन्सर | फ्लोट32 |
पर्यवेक्षित कुंजी (
as_supervised
doc देखें):('text', 'toxicity')
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
सिविल_टिप्पणियां/सिविल टिप्पणियाँगुप्त
- कॉन्फिग विवरण : चेतावनी: CivilCommentsCovert के साथ एक संभावित डेटा गुणवत्ता समस्या है जिसे हम ठीक करने पर सक्रिय रूप से काम कर रहे हैं (06/28/22); अंतर्निहित डेटा बदल सकता है!
CivilCommentsCovert सेट, विषाक्तता और पहचान लेबल के अलावा, ~ 20% ट्रेन और टेस्ट स्प्लिट के साथ CivilCommentsIdentities का एक उपसमूह है। रेटर्स को टिप्पणियों को स्पष्ट रूप से वर्गीकृत करने के लिए कहा गया था, स्पष्ट रूप से, नहीं, या आक्रामक होने पर सुनिश्चित नहीं है, साथ ही साथ इसमें विभिन्न प्रकार के गुप्त अपराध शामिल हैं या नहीं। संपूर्ण एनोटेशन प्रक्रिया https://sites.google.com/corp/view/hciandnlp/accepted-papers पर आगामी पेपर में विस्तृत है
डेटासेट का आकार :
97.83 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,455 |
'train' | 48,074 |
- फ़ीचर संरचना :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
article_id | टेन्सर | int32 | ||
एशियाई | टेन्सर | फ्लोट32 | ||
नास्तिक | टेन्सर | फ्लोट32 | ||
उभयलिंगी | टेन्सर | फ्लोट32 | ||
काला | टेन्सर | फ्लोट32 | ||
बौद्ध | टेन्सर | फ्लोट32 | ||
ईसाई | टेन्सर | फ्लोट32 | ||
covert_emoticons_emojis | टेन्सर | फ्लोट32 | ||
गुप्तहास्य | टेन्सर | फ्लोट32 | ||
गुप्त_नकाबपोश_हानि | टेन्सर | फ्लोट32 | ||
covert_microaggression | टेन्सर | फ्लोट32 | ||
गुप्त_बाधा | टेन्सर | फ्लोट32 | ||
गुप्त_राजनीतिक | टेन्सर | फ्लोट32 | ||
गुप्त_व्यंग्य | टेन्सर | फ्लोट32 | ||
सृजित दिनांक | टेन्सर | डोरी | ||
स्पष्ट रूप से अपमानजनक | टेन्सर | फ्लोट32 | ||
महिला | टेन्सर | फ्लोट32 | ||
हेटेरोसेक्सयल | टेन्सर | फ्लोट32 | ||
हिंदू | टेन्सर | फ्लोट32 | ||
समलैंगिक_समलैंगिक_या_लेस्बियन | टेन्सर | फ्लोट32 | ||
पहचान | टेन्सर | डोरी | ||
Identity_Attack | टेन्सर | फ्लोट32 | ||
implicitly_offensive | टेन्सर | फ्लोट32 | ||
अपमान करना | टेन्सर | फ्लोट32 | ||
बौद्धिक_या_शिक्षण_अक्षमता | टेन्सर | फ्लोट32 | ||
यहूदी | टेन्सर | फ्लोट32 | ||
लातीनी | टेन्सर | फ्लोट32 | ||
नर | टेन्सर | फ्लोट32 | ||
मुसलमान | टेन्सर | फ्लोट32 | ||
not_offensive | टेन्सर | फ्लोट32 | ||
not_sure_offensive | टेन्सर | फ्लोट32 | ||
अश्लील बना | टेन्सर | फ्लोट32 | ||
अन्य_विकलांगता | टेन्सर | फ्लोट32 | ||
अन्य_लिंग | टेन्सर | फ्लोट32 | ||
Other_race_or_ethnicity | टेन्सर | फ्लोट32 | ||
अन्य_धर्म | टेन्सर | फ्लोट32 | ||
अन्य_यौन_अभिविन्यास | टेन्सर | फ्लोट32 | ||
माता पिता की पहचान | टेन्सर | int32 | ||
parent_text | मूलपाठ | डोरी | ||
शारीरिक अपंगता | टेन्सर | फ्लोट32 | ||
मनोरोग_या_मानसिक_बीमारी | टेन्सर | फ्लोट32 | ||
प्रकाशन_आईडी | टेन्सर | डोरी | ||
very_toxicity | टेन्सर | फ्लोट32 | ||
sex_explicit | टेन्सर | फ्लोट32 | ||
मूलपाठ | मूलपाठ | डोरी | ||
धमकी | टेन्सर | फ्लोट32 | ||
विषाक्तता | टेन्सर | फ्लोट32 | ||
ट्रांसजेंडर | टेन्सर | फ्लोट32 | ||
सफ़ेद | टेन्सर | फ्लोट32 |
पर्यवेक्षित कुंजी (
as_supervised
doc देखें):('text', 'toxicity')
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
Civil_comments/CivilCommentsToxicSpans
कॉन्फिग विवरण : सिविल कॉमेंट्स टॉक्सिक स्पैन सिविल कॉमेंट्स का एक सबसेट है जिसे स्पैन स्तर पर लेबल किया जाता है - सभी कैरेक्टर (यूनिकोड कोडपॉइंट्स) सीमाओं के सूचकांक जिन्हें बहुसंख्यक एनोटेटर्स द्वारा विषाक्त के रूप में टैग किया गया था, एक 'स्पैन' सुविधा में वापस आ जाते हैं।
डेटासेट का आकार :
5.81 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 7,939 |
'validation' | 682 |
- फ़ीचर संरचना :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
article_id | टेन्सर | int32 | ||
सृजित दिनांक | टेन्सर | डोरी | ||
पहचान | टेन्सर | डोरी | ||
माता पिता की पहचान | टेन्सर | int32 | ||
parent_text | मूलपाठ | डोरी | ||
प्रकाशन_आईडी | टेन्सर | डोरी | ||
तक फैला | टेन्सर | (कोई नहीं,) | int32 | |
मूलपाठ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('text', 'spans')
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
Civil_comments/CivilCommentsInContext
कॉन्फिग विवरण : संदर्भ में सिविल कॉमेंट्स सिविल कॉमेंट्स का एक सबसेट है जिसे लेबलर्स को पैरेंट_टेक्स्ट उपलब्ध कराकर लेबल किया गया था। इसमें एक प्रासंगिक_विषाक्तता सुविधा शामिल है।
डेटासेट का आकार :
9.63 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 9,969 |
- फ़ीचर संरचना :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
article_id | टेन्सर | int32 | ||
प्रासंगिक_विषाक्तता | टेन्सर | फ्लोट32 | ||
सृजित दिनांक | टेन्सर | डोरी | ||
पहचान | टेन्सर | डोरी | ||
Identity_Attack | टेन्सर | फ्लोट32 | ||
अपमान करना | टेन्सर | फ्लोट32 | ||
अश्लील बना | टेन्सर | फ्लोट32 | ||
माता पिता की पहचान | टेन्सर | int32 | ||
parent_text | मूलपाठ | डोरी | ||
प्रकाशन_आईडी | टेन्सर | डोरी | ||
very_toxicity | टेन्सर | फ्लोट32 | ||
sex_explicit | टेन्सर | फ्लोट32 | ||
मूलपाठ | मूलपाठ | डोरी | ||
धमकी | टेन्सर | फ्लोट32 | ||
विषाक्तता | टेन्सर | फ्लोट32 |
पर्यवेक्षित कुंजी (
as_supervised
doc देखें):('text', 'toxicity')
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}