- Mô tả :
Sentiment140 cho phép bạn khám phá cảm xúc của một thương hiệu, sản phẩm hoặc chủ đề trên Twitter.
Dữ liệu là tệp CSV đã xóa biểu tượng cảm xúc. Định dạng tệp dữ liệu có 6 trường:
- cực của tweet (0 = tiêu cực, 2 = trung tính, 4 = tích cực)
- id của tweet (2087)
- ngày của tweet (Thứ bảy ngày 16 tháng 5 23:58:44 UTC 2009)
- truy vấn (lyx). Nếu không có truy vấn, thì giá trị này là NO_QUERY.
- người dùng đã tweet (robotickilldozr)
- nội dung của tweet (Lyx thật tuyệt)
Để biết thêm thông tin, hãy tham khảo bài báo Phân loại tình cảm Twitter với sự giám sát từ xa tại https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://help.sentiment140.com/home
Mã nguồn :
tfds.datasets.sentiment140.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
77.59 MiB
Kích thước tập dữ liệu :
305.13 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 498 |
'train' | 1.600.000 |
- Cấu trúc tính năng :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'polarity': int32,
'query': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'user': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
ngày tháng | Chữ | chuỗi | ||
phân cực | tenxơ | int32 | ||
truy vấn | Chữ | chuỗi | ||
chữ | Chữ | chuỗi | ||
người dùng | Chữ | chuỗi |
Các phím được giám sát (Xem
as_supervised
doc ):('text', 'polarity')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@ONLINE {Sentiment140,
author = "Go, Alec and Bhayani, Richa and Huang, Lei",
title = "Twitter Sentiment Classification using Distant Supervision",
year = "2009",
url = "http://help.sentiment140.com/home"
}