- বর্ণনা :
বৈজ্ঞানিক কাগজপত্র ডেটাসেটে দীর্ঘ এবং কাঠামোগত নথির দুটি সেট রয়েছে। ডেটাসেটগুলি ArXiv এবং PubMed OpenAccess সংগ্রহস্থল থেকে প্রাপ্ত হয়।
"আর্ক্সিভ" এবং "পাবমেড" উভয়েরই দুটি বৈশিষ্ট্য রয়েছে:
- নিবন্ধ: নথির মূল অংশ, "/n" দ্বারা পৃথক করা প্যারাগ্রাফ।
- বিমূর্ত: নথির বিমূর্ত, "/n" দ্বারা পৃথক করা প্যারাগ্রাফ।
section_names: বিভাগের শিরোনাম, "/n" দ্বারা পৃথক করা হয়েছে।
সোর্স কোড :
tfds.datasets.scientific_papers.Builder
সংস্করণ :
-
1.1.0
: কোনো রিলিজ নোট নেই। -
1.1.1
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড
4.20 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
বিমূর্ত | পাঠ্য | স্ট্রিং | ||
নিবন্ধ | পাঠ্য | স্ট্রিং | ||
বিভাগ_নাম | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('article', 'abstract')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
scientific_papers/arxiv (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : ArXiv সংগ্রহস্থল থেকে নথি।
ডেটাসেটের আকার :
7.07 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 6,440 |
'train' | 203,037 |
'validation' | ৬,৪৩৬ |
- উদাহরণ ( tfds.as_dataframe ):
scientific_papers/pubmed
কনফিগারেশনের বিবরণ : PubMed সংগ্রহস্থল থেকে নথি।
ডেটাসেটের আকার :
2.34 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৬,৬৫৮ |
'train' | 119,924 |
'validation' | ৬,৬৩৩ |
- উদাহরণ ( tfds.as_dataframe ):