yelp_polarity_reviews

  • 説明:

大規模な Yelp レビュー データセット。これは、二値センチメント分類用のデータセットです。トレーニング用に 560,000 件の極性の高い yelp レビューのセットと、テスト用に 38,000 件の yelp レビューを提供しています。 ORIGIN Yelp レビュー データセットは、Yelp からのレビューで構成されています。これは、Yelp Dataset Challenge 2015 のデータから抽出されたものです。詳細については、 http://www.yelp.com/dataset を参照してください。

Yelp レビュー極性データセットは、上記のデータセットから Xiang Zhang (xiang.zhang@nyu.edu) によって作成されました。これは、Xiang Zhang、Junbo Zhao、Yann LeCun の論文でテキスト分類ベンチマークとして最初に使用されました。テキスト分類のための文字レベルの畳み込みネットワーク。神経情報処理システムの進歩 28 (NIPS 2015)。

説明

Yelp レビューの極性データセットは、星 1 と 2 を負、星 3 と 4 を正と見なして構築されています。極性ごとに、280,000 のトレーニング サンプルと 19,000 のテスト サンプルがランダムに取得されます。合計で、560,000 のトレーニング サンプルと 38,000 のテスト サンプルがあります。負極性はクラス 1、正極性はクラス 2 です。

ファイル train.csv および test.csv には、すべてのトレーニング サンプルがカンマ区切りの値として含まれています。それらには、クラス インデックス (1 と 2) とレビュー テキストに対応する 2 つの列があります。レビュー テキストは二重引用符 (") を使用してエスケープされ、内部の二重引用符は 2 つの二重引用符 ("") でエスケープされます。新しい行は、バックスラッシュとそれに続く "n" 文字、つまり " " でエスケープされます。

スプリット
'test' 38,000
'train' 560,000
  • 機能構造:
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ラベルクラスラベルint64
文章文章ストリング
  • 引用
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}