yelp_polarity_reviews

  • বর্ণনা :

বড় Yelp পর্যালোচনা ডেটাসেট। এটি বাইনারি সেন্টিমেন্ট শ্রেণীবিভাগের জন্য একটি ডেটাসেট। আমরা প্রশিক্ষণের জন্য 560,000 উচ্চ পোলার ইয়েলপ পর্যালোচনা এবং 38,000 পরীক্ষার জন্য একটি সেট প্রদান করি। ORIGIN Yelp পর্যালোচনা ডেটাসেট Yelp থেকে পর্যালোচনা নিয়ে গঠিত। এটি Yelp Dataset Challenge 2015 ডেটা থেকে বের করা হয়েছে। আরও তথ্যের জন্য, অনুগ্রহ করে http://www.yelp.com/dataset দেখুন

উপরের ডেটাসেট থেকে Yelp পর্যালোচনা পোলারিটি ডেটাসেটটি Xiang Zhang (xiang.zhang@nyu.edu) দ্বারা তৈরি করা হয়েছে৷ নিম্নলিখিত কাগজে এটি প্রথম পাঠ্য শ্রেণিবিন্যাসের মানদণ্ড হিসাবে ব্যবহৃত হয়: জিয়াং ঝাং, জুনবো ঝাও, ইয়ান লেকুন। টেক্সট শ্রেণীবিভাগের জন্য অক্ষর-স্তরের কনভোলিউশনাল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি 28 (NIPS 2015)।

বর্ণনা

Yelp পর্যালোচনা পোলারিটি ডেটাসেট 1 এবং 2 নেতিবাচক, এবং 3 এবং 4 পজিটিভ বিবেচনা করে তৈরি করা হয়েছে। প্রতিটি পোলারিটির জন্য 280,000 প্রশিক্ষণ নমুনা এবং 19,000 পরীক্ষার নমুনা এলোমেলোভাবে নেওয়া হয়। মোট 560,000 প্রশিক্ষণের নমুনা এবং 38,000টি পরীক্ষার নমুনা রয়েছে। নেতিবাচক পোলারিটি হল ক্লাস 1, এবং ইতিবাচক ক্লাস 2।

train.csv এবং test.csv ফাইলগুলিতে কমা-স্প্যারেটেড মান হিসাবে সমস্ত প্রশিক্ষণের নমুনা রয়েছে৷ তাদের মধ্যে 2টি কলাম রয়েছে, ক্লাস সূচক (1 এবং 2) এবং পর্যালোচনা পাঠ্যের সাথে সম্পর্কিত। পর্যালোচনা পাঠ্যগুলি ডবল উদ্ধৃতি (") ব্যবহার করে এস্কেপ করা হয় এবং যেকোনো অভ্যন্তরীণ দ্বিগুণ উদ্ধৃতি 2টি দ্বিগুণ উদ্ধৃতি ("") দ্বারা এস্কেপ করা হয়। নতুন লাইনগুলি একটি "n" অক্ষর সহ একটি ব্যাকস্ল্যাশ দ্বারা এস্কেপ করা হয়, সেটি হল " "৷

বিভক্ত উদাহরণ
'test' 38,000
'train' 560,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
লেবেল ক্লাসলেবেল int64
পাঠ্য পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}