tình cảm140

  • Mô tả :

Sentiment140 cho phép bạn khám phá cảm xúc của một thương hiệu, sản phẩm hoặc chủ đề trên Twitter.

Dữ liệu là tệp CSV đã xóa biểu tượng cảm xúc. Định dạng tệp dữ liệu có 6 trường:

  1. cực của tweet (0 = tiêu cực, 2 = trung tính, 4 = tích cực)
  2. id của tweet (2087)
  3. ngày của tweet (Thứ bảy ngày 16 tháng 5 23:58:44 UTC 2009)
  4. truy vấn (lyx). Nếu không có truy vấn, thì giá trị này là NO_QUERY.
  5. người dùng đã tweet (robotickilldozr)
  6. nội dung của tweet (Lyx thật tuyệt)

Để biết thêm thông tin, hãy tham khảo bài báo Phân loại tình cảm Twitter với sự giám sát từ xa tại https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf

Tách ra ví dụ
'test' 498
'train' 1.600.000
  • Cấu trúc tính năng :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'polarity': int32,
    'query': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'user': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
ngày tháng Chữ chuỗi
phân cực tenxơ int32
truy vấn Chữ chuỗi
chữ Chữ chuỗi
người dùng Chữ chuỗi
  • trích dẫn :
@ONLINE {Sentiment140,
    author = "Go, Alec and Bhayani, Richa and Huang, Lei",
    title  = "Twitter Sentiment Classification using Distant Supervision",
    year   = "2009",
    url    = "http://help.sentiment140.com/home"
}