- توضیحات :
مجموعه داده بررسی Yelp بزرگ. این مجموعه داده ای برای طبقه بندی احساسات باینری است. ما مجموعه ای از 560000 بررسی yelp بسیار قطبی را برای آموزش و 38000 برای آزمایش ارائه می دهیم. ORIGIN مجموعه داده بررسی Yelp از بررسی های Yelp تشکیل شده است. از داده های Yelp Dataset Challenge 2015 استخراج شده است. برای اطلاعات بیشتر، لطفاً به http://www.yelp.com/dataset مراجعه کنید
مجموعه داده قطبی بررسی Yelp توسط Xiang Zhang (xiang.zhang@nyu.edu) از مجموعه داده فوق ساخته شده است. این اولین بار به عنوان معیار طبقه بندی متن در مقاله زیر استفاده می شود: Xiang Zhang، Junbo Zhao، Yann LeCun. شبکه های کانولوشن در سطح کاراکتر برای طبقه بندی متن. پیشرفتها در سیستمهای پردازش اطلاعات عصبی 28 (NIPS 2015).
شرح
مجموعه داده قطبی بررسی Yelp با در نظر گرفتن ستاره های 1 و 2 منفی و 3 و 4 مثبت ساخته شده است. برای هر قطبیت 280000 نمونه آموزشی و 19000 نمونه آزمایشی به صورت تصادفی انتخاب می شود. در مجموع 560000 نمونه آموزش و 38000 نمونه تست وجود دارد. قطبیت منفی کلاس 1 و مثبت کلاس 2 است.
فایلهای train.csv و test.csv شامل تمام نمونههای آموزشی بهعنوان مقادیری با کاما هستند. 2 ستون در آنها وجود دارد که مربوط به فهرست کلاس (1 و 2) و متن بررسی است. متون بازبینی با استفاده از گیومه های دوتایی (") و هر دو نقل قول داخلی با 2 نقل قول دوتایی ("") خارج می شوند. خطوط جدید با یک اسلش به دنبال کاراکتر "n"، یعنی " " خارج می شوند.
صفحه اصلی : https://course.fast.ai/datasets
کد منبع :
tfds.text.YelpPolarityReviews
نسخه ها :
-
0.2.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
158.67 MiB
حجم مجموعه داده :
435.14 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 38000 |
'train' | 560000 |
- ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | int64 | ||
متن | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}