scientific_papers

  • বর্ণনা :

বৈজ্ঞানিক কাগজপত্র ডেটাসেটে দীর্ঘ এবং কাঠামোগত নথির দুটি সেট রয়েছে। ডেটাসেটগুলি ArXiv এবং PubMed OpenAccess সংগ্রহস্থল থেকে প্রাপ্ত হয়।

"আর্ক্সিভ" এবং "পাবমেড" উভয়েরই দুটি বৈশিষ্ট্য রয়েছে:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
বিমূর্ত পাঠ্য স্ট্রিং
নিবন্ধ পাঠ্য স্ট্রিং
বিভাগ_নাম পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('article', 'abstract')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

scientific_papers/arxiv (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : ArXiv সংগ্রহস্থল থেকে নথি।

  • ডেটাসেটের আকার : 7.07 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 6,440
'train' 203,037
'validation' ৬,৪৩৬

scientific_papers/pubmed

  • কনফিগারেশনের বিবরণ : PubMed সংগ্রহস্থল থেকে নথি।

  • ডেটাসেটের আকার : 2.34 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৬,৬৫৮
'train' 119,924
'validation' ৬,৬৩৩