- 説明:
大規模な Yelp レビュー データセット。これは、二値センチメント分類用のデータセットです。トレーニング用に 560,000 件の極性の高い yelp レビューのセットと、テスト用に 38,000 件の yelp レビューを提供しています。 ORIGIN Yelp レビュー データセットは、Yelp からのレビューで構成されています。これは、Yelp Dataset Challenge 2015 のデータから抽出されたものです。詳細については、 http://www.yelp.com/dataset を参照してください。
Yelp レビュー極性データセットは、上記のデータセットから Xiang Zhang (xiang.zhang@nyu.edu) によって作成されました。これは、Xiang Zhang、Junbo Zhao、Yann LeCun の論文でテキスト分類ベンチマークとして最初に使用されました。テキスト分類のための文字レベルの畳み込みネットワーク。神経情報処理システムの進歩 28 (NIPS 2015)。
説明
Yelp レビューの極性データセットは、星 1 と 2 を負、星 3 と 4 を正と見なして構築されています。極性ごとに、280,000 のトレーニング サンプルと 19,000 のテスト サンプルがランダムに取得されます。合計で、560,000 のトレーニング サンプルと 38,000 のテスト サンプルがあります。負極性はクラス 1、正極性はクラス 2 です。
ファイル train.csv および test.csv には、すべてのトレーニング サンプルがカンマ区切りの値として含まれています。それらには、クラス インデックス (1 と 2) とレビュー テキストに対応する 2 つの列があります。レビュー テキストは二重引用符 (") を使用してエスケープされ、内部の二重引用符は 2 つの二重引用符 ("") でエスケープされます。新しい行は、バックスラッシュとそれに続く "n" 文字、つまり " " でエスケープされます。
ホームページ: https://course.fast.ai/datasets
ソース コード:
tfds.text.YelpPolarityReviews
バージョン:
-
0.2.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
158.67 MiB
データセットサイズ:
435.14 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 38,000 |
'train' | 560,000 |
- 機能構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ラベル | クラスラベル | int64 | ||
文章 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('text', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}