yelp_polarity_reviews

  • Mô tả :

Bộ dữ liệu đánh giá Yelp lớn. Đây là tập dữ liệu để phân loại tình cảm nhị phân. Chúng tôi cung cấp một bộ gồm 560.000 bài đánh giá yelp có tính phân cực cao để đào tạo và 38.000 bài để thử nghiệm. NGUỒN GỐC Bộ dữ liệu đánh giá Yelp bao gồm các đánh giá từ Yelp. Nó được trích xuất từ ​​dữ liệu Yelp Dataset Challenge 2015. Để biết thêm thông tin, vui lòng tham khảo http://www.yelp.com/dataset

Bộ dữ liệu phân cực đánh giá Yelp được xây dựng bởi Xiang Zhang (xiang.zhang@nyu.edu) từ bộ dữ liệu trên. Nó lần đầu tiên được sử dụng làm tiêu chuẩn phân loại văn bản trong bài báo sau: Xiang Zhang, Junbo Zhao, Yann LeCun. Mạng tích chập cấp độ ký tự để phân loại văn bản. Những tiến bộ trong Hệ thống xử lý thông tin thần kinh 28 (NIPS 2015).

SỰ MÔ TẢ

Bộ dữ liệu phân cực đánh giá Yelp được xây dựng bằng cách xem xét các ngôi sao 1 và 2 âm và 3 và 4 dương. Đối với mỗi cực, 280.000 mẫu đào tạo và 19.000 mẫu thử nghiệm được lấy ngẫu nhiên. Tổng cộng có 560.000 mẫu đào tạo và 38.000 mẫu thử nghiệm. Cực âm là loại 1, và cực dương là loại 2.

Các tệp train.csv và test.csv chứa tất cả các mẫu đào tạo dưới dạng các giá trị được phân tách bằng dấu phẩy. Có 2 cột trong đó, tương ứng với chỉ mục lớp (1 và 2) và văn bản đánh giá. Các văn bản đánh giá được thoát bằng cách sử dụng dấu ngoặc kép (") và bất kỳ dấu ngoặc kép bên trong nào được thoát bằng 2 dấu ngoặc kép (""). Các dòng mới được thoát bằng dấu gạch chéo ngược theo sau ký tự "n", đó là " ".

Tách ra ví dụ
'test' 38.000
'train' 560.000
  • Cấu trúc tính năng :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhãn mác LớpNhãn int64
chữ Chữ sợi dây
  • trích dẫn :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}