- Mô tả :
Phiên bản này của Bộ dữ liệu CivilComments cung cấp quyền truy cập vào bảy nhãn chính được chú thích bởi nhân viên đám đông, độc tính và các thẻ khác có giá trị từ 0 đến 1 cho biết tỷ lệ người chú thích đã gán các thuộc tính này cho văn bản nhận xét.
Các thẻ khác chỉ có sẵn cho một phần nhỏ các ví dụ đầu vào. Chúng hiện đang bị bỏ qua đối với tập dữ liệu chính; tập hợp CivilCommentsIdentities bao gồm các nhãn đó, nhưng chỉ bao gồm tập hợp con của dữ liệu với chúng. Các thuộc tính khác là một phần của bản phát hành CivilComments ban đầu chỉ được bao gồm trong dữ liệu thô. Xem tài liệu Kaggle để biết thêm chi tiết về các tính năng có sẵn.
Các bình luận trong bộ dữ liệu này đến từ một kho lưu trữ của nền tảng Bình luận dân sự, một plugin bình luận cho các trang web tin tức độc lập. Những bình luận công khai này được tạo ra từ năm 2015 - 2017 và xuất hiện trên khoảng 50 trang tin tức tiếng Anh trên toàn thế giới. Khi Civil Comments ngừng hoạt động vào năm 2017, họ đã chọn cung cấp các bình luận công khai trong một kho lưu trữ mở lâu dài để cho phép nghiên cứu trong tương lai. Dữ liệu gốc, được xuất bản trên figshare, bao gồm văn bản nhận xét công khai, một số siêu dữ liệu được liên kết như ID bài viết, ID xuất bản, dấu thời gian và nhãn "văn minh" do người bình luận tạo, nhưng không bao gồm id người dùng. Jigsaw đã mở rộng tập dữ liệu này bằng cách thêm các nhãn bổ sung cho độc tính, đề cập đến danh tính cũng như hành vi xúc phạm bí mật. Tập dữ liệu này là một bản sao chính xác của dữ liệu được phát hành cho thử thách Kaggle Xu hướng ngoài ý muốn trong Jigsaw trong Phân loại độc tính. Bộ dữ liệu này được phát hành theo CC0, cũng như văn bản nhận xét cơ bản.
Đối với các nhận xét cũng có parent_id trong dữ liệu nhận xét dân sự, văn bản của nhận xét trước đó được cung cấp dưới dạng tính năng "parent_text". Lưu ý rằng việc phân tách được thực hiện mà không tính đến thông tin này, vì vậy việc sử dụng các nhận xét trước đây có thể làm rò rỉ một số thông tin. Người chú thích không có quyền truy cập vào văn bản gốc khi tạo nhãn.
Trang chủ : https://www.kaggle.com/c/jigsaw-unintends-bias-in-toxicity-classification/data
Mã nguồn :
tfds.text.CivilComments
Phiên bản :
-
1.0.0
: Bản phát hành đầy đủ ban đầu. -
1.0.1
: Đã thêm id duy nhất cho mỗi nhận xét. -
1.1.0
: Đã thêm cấu hình CivilCommentsCovert. -
1.1.1
: Đã thêm cấu hình CivilCommentsCovert với tổng kiểm tra chính xác. -
1.1.2
: Đã thêm trích dẫn riêng cho bộ dữ liệu CivilCommentsCovert. -
1.1.3
: Đã sửa các loại id từ float thành string. -
1.2.0
: Thêm các tính năng văn bản nhận xét độc hại, ngữ cảnh và phụ huynh. -
1.2.1
: Sửa định dạng không chính xác trong phân tách ngữ cảnh. -
1.2.2
: Cập nhật để phản ánh bối cảnh chỉ có sự phân tách tàu. -
1.2.3
: Thêm cảnh báo vào CivilCommentsCovert khi chúng tôi khắc phục sự cố dữ liệu. -
1.2.4
(mặc định): Thêm ID xuất bản và dấu thời gian nhận xét.
-
Kích thước tải xuống :
427.41 MiB
Hình ( tfds.show_examples ): Không được hỗ trợ.
civil_comments/CivilComments (cấu hình mặc định)
Mô tả cấu hình : Bộ CivilComments ở đây bao gồm tất cả dữ liệu, nhưng chỉ có bảy nhãn cơ bản (độc tính, độc tính nghiêm trọng, tục tĩu, đe dọa, xúc phạm, tấn công danh tính và khiêu dâm).
Kích thước tập dữ liệu :
1.54 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 97.320 |
'train' | 1.804.874 |
'validation' | 97.320 |
- Cấu trúc tính năng :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ID bài viết | tenxơ | int32 | ||
ngày tạo ra | tenxơ | sợi dây | ||
nhận dạng | tenxơ | sợi dây | ||
danh tính_tấn công | tenxơ | phao32 | ||
sự sỉ nhục | tenxơ | phao32 | ||
tục tĩu | tenxơ | phao32 | ||
ID cha mẹ | tenxơ | int32 | ||
parent_text | Chữ | sợi dây | ||
ấn phẩm_id | tenxơ | sợi dây | ||
nghiêm trọng_độc tính | tenxơ | phao32 | ||
sex_explicit | tenxơ | phao32 | ||
chữ | Chữ | sợi dây | ||
mối đe dọa | tenxơ | phao32 | ||
độc tính | tenxơ | phao32 |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'toxicity')
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
Mô tả cấu hình : Bộ CivilCommentsIdentities ở đây bao gồm một bộ nhãn nhận dạng mở rộng ngoài bảy nhãn cơ bản. Tuy nhiên, nó chỉ bao gồm tập hợp con (khoảng một phần tư) dữ liệu có tất cả các tính năng này.
Kích thước tập dữ liệu :
654.97 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 21,577 |
'train' | 405.130 |
'validation' | 21,293 |
- Cấu trúc tính năng :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ID bài viết | tenxơ | int32 | ||
Châu Á | tenxơ | phao32 | ||
người vô thần | tenxơ | phao32 | ||
lưỡng tính | tenxơ | phao32 | ||
đen | tenxơ | phao32 | ||
phật tử | tenxơ | phao32 | ||
thiên chúa giáo | tenxơ | phao32 | ||
ngày tạo ra | tenxơ | sợi dây | ||
nữ giới | tenxơ | phao32 | ||
khác giới | tenxơ | phao32 | ||
ấn độ giáo | tenxơ | phao32 | ||
đồng tính luyến ái_gay_or_lesbian | tenxơ | phao32 | ||
nhận dạng | tenxơ | sợi dây | ||
danh tính_tấn công | tenxơ | phao32 | ||
sự sỉ nhục | tenxơ | phao32 | ||
trí tuệ_or_learning_disability | tenxơ | phao32 | ||
người do thái | tenxơ | phao32 | ||
người la tinh | tenxơ | phao32 | ||
nam giới | tenxơ | phao32 | ||
Hồi | tenxơ | phao32 | ||
tục tĩu | tenxơ | phao32 | ||
other_disability | tenxơ | phao32 | ||
other_gender | tenxơ | phao32 | ||
other_race_or_ethnicity | tenxơ | phao32 | ||
tôn_giáo khác | tenxơ | phao32 | ||
other_sex_orientation | tenxơ | phao32 | ||
ID cha mẹ | tenxơ | int32 | ||
parent_text | Chữ | sợi dây | ||
khuyết tật về thể chất | tenxơ | phao32 | ||
tâm thần_or_mental_illness | tenxơ | phao32 | ||
ấn phẩm_id | tenxơ | sợi dây | ||
nghiêm trọng_độc tính | tenxơ | phao32 | ||
sex_explicit | tenxơ | phao32 | ||
chữ | Chữ | sợi dây | ||
mối đe dọa | tenxơ | phao32 | ||
độc tính | tenxơ | phao32 | ||
chuyển giới | tenxơ | phao32 | ||
trắng | tenxơ | phao32 |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'toxicity')
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsCovert
- Mô tả cấu hình : CẢNH BÁO: có thể có vấn đề về chất lượng dữ liệu với CivilCommentsCovert mà chúng tôi đang tích cực tìm cách khắc phục (28/06/22); dữ liệu cơ bản có thể thay đổi!
Bộ CivilCommentsCovert là một tập hợp con của CivilCommentsIdentities với ~20% phần tách thử nghiệm và đào tạo được chú thích thêm về hành vi tấn công bí mật, bên cạnh các nhãn nhận dạng và độc tính. Những người đánh giá được yêu cầu phân loại các nhận xét là một trong những nhận xét rõ ràng, ngầm hiểu, không hoặc không chắc liệu có xúc phạm hay không, cũng như liệu nó có chứa các loại xúc phạm bí mật khác nhau hay không. Quy trình chú thích đầy đủ được trình bày chi tiết trong một bài báo sắp xuất bản tại https://sites.google.com/corp/view/hciandnlp/accepted-papers
Kích thước tập dữ liệu :
97.83 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.455 |
'train' | 48,074 |
- Cấu trúc tính năng :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ID bài viết | tenxơ | int32 | ||
Châu Á | tenxơ | phao32 | ||
người vô thần | tenxơ | phao32 | ||
lưỡng tính | tenxơ | phao32 | ||
đen | tenxơ | phao32 | ||
phật tử | tenxơ | phao32 | ||
thiên chúa giáo | tenxơ | phao32 | ||
covert_emoticons_emojis | tenxơ | phao32 | ||
covert_humor | tenxơ | phao32 | ||
covert_masked_harm | tenxơ | phao32 | ||
covert_microaggression | tenxơ | phao32 | ||
covert_obfuscation | tenxơ | phao32 | ||
bí mật_chính trị | tenxơ | phao32 | ||
covert_sarcasm | tenxơ | phao32 | ||
ngày tạo ra | tenxơ | sợi dây | ||
rõ ràng_offensive | tenxơ | phao32 | ||
nữ giới | tenxơ | phao32 | ||
khác giới | tenxơ | phao32 | ||
ấn độ giáo | tenxơ | phao32 | ||
đồng tính luyến ái_gay_or_lesbian | tenxơ | phao32 | ||
nhận dạng | tenxơ | sợi dây | ||
danh tính_tấn công | tenxơ | phao32 | ||
ngầm_tấn công | tenxơ | phao32 | ||
sự sỉ nhục | tenxơ | phao32 | ||
trí tuệ_or_learning_disability | tenxơ | phao32 | ||
người do thái | tenxơ | phao32 | ||
người la tinh | tenxơ | phao32 | ||
nam giới | tenxơ | phao32 | ||
Hồi | tenxơ | phao32 | ||
not_offensive | tenxơ | phao32 | ||
not_sure_offensive | tenxơ | phao32 | ||
tục tĩu | tenxơ | phao32 | ||
other_disability | tenxơ | phao32 | ||
other_gender | tenxơ | phao32 | ||
other_race_or_ethnicity | tenxơ | phao32 | ||
tôn_giáo khác | tenxơ | phao32 | ||
other_sex_orientation | tenxơ | phao32 | ||
ID cha mẹ | tenxơ | int32 | ||
parent_text | Chữ | sợi dây | ||
khuyết tật về thể chất | tenxơ | phao32 | ||
tâm thần_or_mental_illness | tenxơ | phao32 | ||
ấn phẩm_id | tenxơ | sợi dây | ||
nghiêm trọng_độc tính | tenxơ | phao32 | ||
sex_explicit | tenxơ | phao32 | ||
chữ | Chữ | sợi dây | ||
mối đe dọa | tenxơ | phao32 | ||
độc tính | tenxơ | phao32 | ||
chuyển giới | tenxơ | phao32 | ||
trắng | tenxơ | phao32 |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'toxicity')
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
Mô tả cấu hình : CivilComments Toxic Spans là một tập hợp con của CivilComments được gắn nhãn ở cấp độ span - chỉ số của tất cả các ranh giới ký tự (điểm mã unicode) được đa số người chú thích gắn thẻ là độc hại được trả về trong tính năng 'spans'.
Kích thước tập dữ liệu :
5.81 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.000 |
'train' | 7,939 |
'validation' | 682 |
- Cấu trúc tính năng :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ID bài viết | tenxơ | int32 | ||
ngày tạo ra | tenxơ | sợi dây | ||
nhận dạng | tenxơ | sợi dây | ||
ID cha mẹ | tenxơ | int32 | ||
parent_text | Chữ | sợi dây | ||
ấn phẩm_id | tenxơ | sợi dây | ||
nhịp | tenxơ | (Không có,) | int32 | |
chữ | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'spans')
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
Mô tả cấu hình : CivilComments trong Ngữ cảnh là một tập hợp con của CivilComments đã được gắn nhãn bằng cách cung cấp cho người gắn nhãn văn bản gốc. Nó bao gồm một tính năng contextual_toxicity.
Kích thước tập dữ liệu :
9.63 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 9,969 |
- Cấu trúc tính năng :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ID bài viết | tenxơ | int32 | ||
contextual_toxicity | tenxơ | phao32 | ||
ngày tạo ra | tenxơ | sợi dây | ||
nhận dạng | tenxơ | sợi dây | ||
danh tính_tấn công | tenxơ | phao32 | ||
sự sỉ nhục | tenxơ | phao32 | ||
tục tĩu | tenxơ | phao32 | ||
ID cha mẹ | tenxơ | int32 | ||
parent_text | Chữ | sợi dây | ||
ấn phẩm_id | tenxơ | sợi dây | ||
nghiêm trọng_độc tính | tenxơ | phao32 | ||
sex_explicit | tenxơ | phao32 | ||
chữ | Chữ | sợi dây | ||
mối đe dọa | tenxơ | phao32 | ||
độc tính | tenxơ | phao32 |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'toxicity')
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}