yelp_polarity_reviews

  • 설명 :

대규모 Yelp 검토 데이터 세트. 이진 감정 분류를 위한 데이터 세트입니다. 교육용으로 560,000개의 극지방 yelp 리뷰 세트와 테스트용으로 38,000개의 세트를 제공합니다. ORIGIN Yelp 리뷰 데이터 세트는 Yelp의 리뷰로 구성됩니다. Yelp Dataset Challenge 2015 데이터에서 추출되었습니다. 자세한 내용은 http://www.yelp.com/dataset 를 참조하십시오.

Yelp 리뷰 극성 데이터 세트는 위의 데이터 세트에서 Xiang Zhang(xiang.zhang@nyu.edu)에 의해 구성되었습니다. Xiang Zhang, Junbo Zhao, Yann LeCun 논문에서 텍스트 분류 벤치마크로 처음 사용되었습니다. 텍스트 분류를 위한 문자 수준 컨볼루션 네트워크. 신경 정보 처리 시스템의 발전 28(NIPS 2015).

설명

Yelp 리뷰 극성 데이터 세트는 별 1과 2는 음수, 3과 4는 양수로 간주하여 구성됩니다. 각 극성에 대해 280,000개의 훈련 샘플과 19,000개의 테스트 샘플이 무작위로 추출됩니다. 총 560,000개의 학습 샘플과 38,000개의 테스트 샘플이 있습니다. 음극은 클래스 1이고 양극은 클래스 2입니다.

파일 train.csv 및 test.csv에는 모든 훈련 샘플이 쉼표로 구분된 값으로 포함되어 있습니다. 클래스 인덱스(1 및 2) 및 리뷰 텍스트에 해당하는 2개의 열이 있습니다. 리뷰 텍스트는 큰따옴표(")를 사용하여 이스케이프 처리되고 내부 큰따옴표는 2개의 큰따옴표("")로 이스케이프 처리됩니다. 새 줄은 백슬래시 뒤에 "n" 문자, 즉 " "가 오는 방식으로 이스케이프 처리됩니다.

나뉘다
'test' 38,000
'train' 560,000
  • 기능 구조 :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
상표 클래스 레이블 int64
텍스트 텍스트
  • 인용 :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}