yelp_polarity_reviews

説明:

大規模な Yelp レビューデータセット。これは、二値センチメント分類用のデータセットです。トレーニング用に 560,000 件の極性の高い yelp レビューのセットと、テスト用に 38,000 件の yelp レビューを提供しています。 ORIGIN Yelp レビューデータセットは、Yelp からのレビューで構成されています。これは、Yelp Dataset Challenge 2015 のデータから抽出されたものです。詳細については、 http://www.yelp.com/dataset を参照してください。

Yelp レビュー極性データセットは、上記のデータセットから Xiang Zhang (xiang.zhang@nyu.edu) によって作成されました。これは、Xiang Zhang、Junbo Zhao、Yann LeCun の論文でテキスト分類ベンチマークとして最初に使用されました。テキスト分類のための文字レベルの畳み込みネットワーク。神経情報処理システムの進歩 28 (NIPS 2015)。

説明

Yelp レビューの極性データセットは、星 1 と 2 を負、星 3 と 4 を正と見なして構築されています。極性ごとに、280,000 のトレーニングサンプルと 19,000 のテストサンプルがランダムに取得されます。合計で、560,000 のトレーニングサンプルと 38,000 のテストサンプルがあります。負極性はクラス 1、正極性はクラス 2 です。

ファイル train.csv および test.csv には、すべてのトレーニングサンプルがカンマ区切りの値として含まれています。それらには、クラスインデックス (1 と 2) とレビューテキストに対応する 2 つの列があります。レビューテキストは二重引用符 (") を使用してエスケープされ、内部の二重引用符は 2 つの二重引用符 ("") でエスケープされます。新しい行は、バックスラッシュとそれに続く "n" 文字、つまり " " でエスケープされます。

ホームページ: https://course.fast.ai/datasets
ソースコード: tfds.text.YelpPolarityReviews
バージョン:
- 0.2.0 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 158.67 MiB
データセットサイズ: 435.14 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'test'`	38,000
`'train'`	560,000

機能構造:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
ラベル	クラスラベル	int64
文章	文章	ストリング

監視されたキー( as_supervised docを参照): ('text', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}

yelp_polarity_reviews コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

yelp_polarity_reviews