- বর্ণনা :
AG হল 1 মিলিয়নেরও বেশি সংবাদ নিবন্ধের একটি সংগ্রহ। 1 বছরেরও বেশি কার্যকলাপে ComeToMyHead দ্বারা 2000 টিরও বেশি সংবাদ উত্স থেকে সংবাদ নিবন্ধগুলি সংগ্রহ করা হয়েছে৷ ComeToMyHead হল একটি একাডেমিক নিউজ সার্চ ইঞ্জিন যা জুলাই, 2004 থেকে চলছে। ডেটাসেটটি একাডেমিক কমিউনিটি দ্বারা ডেটা মাইনিং (ক্লাস্টারিং, শ্রেণীবিভাগ, ইত্যাদি), তথ্য পুনরুদ্ধার (র্যাঙ্কিং, অনুসন্ধান, ইত্যাদি), xml, গবেষণার উদ্দেশ্যে প্রদান করা হয়। ডেটা কম্প্রেশন, ডেটা স্ট্রিমিং এবং অন্য কোনো অ-বাণিজ্যিক কার্যকলাপ। আরও তথ্যের জন্য, অনুগ্রহ করে http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html লিঙ্কটি দেখুন।
AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি উপরে দেওয়া ডেটাসেট থেকে জিয়াং ঝাং (xiang.zhang@nyu.edu) দ্বারা তৈরি করা হয়েছে৷ এটি নিম্নলিখিত কাগজে পাঠ্য শ্রেণিবিন্যাসের মানদণ্ড হিসাবে ব্যবহৃত হয়: জিয়াং ঝাং, জুনবো ঝাও, ইয়ান লেকুন। টেক্সট শ্রেণীবিভাগের জন্য অক্ষর-স্তরের কনভোলিউশনাল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি 28 (NIPS 2015)।
AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি মূল কর্পাস থেকে 4টি বৃহত্তম শ্রেণী বেছে নিয়ে তৈরি করা হয়েছে। প্রতিটি ক্লাসে 30,000টি প্রশিক্ষণের নমুনা এবং 1,900টি পরীক্ষার নমুনা রয়েছে। প্রশিক্ষণ নমুনার মোট সংখ্যা 120,000 এবং পরীক্ষা 7,600।
হোমপেজ : https://arxiv.org/abs/1509.01626
সোর্স কোড :
tfds.datasets.ag_news_subset.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
11.24 MiB
ডেটাসেটের আকার :
35.79 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৭,৬০০ |
'train' | 120,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
বর্ণনা | পাঠ্য | স্ট্রিং | ||
লেবেল | ক্লাসলেবেল | int64 | ||
শিরোনাম | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('description', 'label')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}