ag_news_subset

  • বর্ণনা :

AG হল 1 মিলিয়নেরও বেশি সংবাদ নিবন্ধের একটি সংগ্রহ। 1 বছরেরও বেশি কার্যকলাপে ComeToMyHead দ্বারা 2000 টিরও বেশি সংবাদ উত্স থেকে সংবাদ নিবন্ধগুলি সংগ্রহ করা হয়েছে৷ ComeToMyHead হল একটি একাডেমিক নিউজ সার্চ ইঞ্জিন যা জুলাই, 2004 থেকে চলছে। ডেটাসেটটি একাডেমিক কমিউনিটি দ্বারা ডেটা মাইনিং (ক্লাস্টারিং, শ্রেণীবিভাগ, ইত্যাদি), তথ্য পুনরুদ্ধার (র্যাঙ্কিং, অনুসন্ধান, ইত্যাদি), xml, গবেষণার উদ্দেশ্যে প্রদান করা হয়। ডেটা কম্প্রেশন, ডেটা স্ট্রিমিং এবং অন্য কোনো অ-বাণিজ্যিক কার্যকলাপ। আরও তথ্যের জন্য, অনুগ্রহ করে http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html লিঙ্কটি দেখুন।

AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি উপরে দেওয়া ডেটাসেট থেকে জিয়াং ঝাং (xiang.zhang@nyu.edu) দ্বারা তৈরি করা হয়েছে৷ এটি নিম্নলিখিত কাগজে পাঠ্য শ্রেণিবিন্যাসের মানদণ্ড হিসাবে ব্যবহৃত হয়: জিয়াং ঝাং, জুনবো ঝাও, ইয়ান লেকুন। টেক্সট শ্রেণীবিভাগের জন্য অক্ষর-স্তরের কনভোলিউশনাল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি 28 (NIPS 2015)।

AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি মূল কর্পাস থেকে 4টি বৃহত্তম শ্রেণী বেছে নিয়ে তৈরি করা হয়েছে। প্রতিটি ক্লাসে 30,000টি প্রশিক্ষণের নমুনা এবং 1,900টি পরীক্ষার নমুনা রয়েছে। প্রশিক্ষণ নমুনার মোট সংখ্যা 120,000 এবং পরীক্ষা 7,600।

বিভক্ত উদাহরণ
'test' ৭,৬০০
'train' 120,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
বর্ণনা পাঠ্য স্ট্রিং
লেবেল ক্লাসলেবেল int64
শিরোনাম পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}