salient_span_wikipedia

  • বর্ণনা :

লেবেলযুক্ত বিশিষ্ট স্প্যান সহ উইকিপিডিয়া বাক্য।

@article{guu2020realm,
    title={REALM: Retrieval-Augmented Language Model Pre-Training},
    author={Kelvin Guu and Kenton Lee and Zora Tung and Panupong Pasupat and Ming-Wei Chang},
    year={2020},
    journal = {arXiv e-prints},
    archivePrefix = {arXiv},
    eprint={2002.08909},
}

salient_span_wikipedia/বাক্য (ডিফল্ট কনফিগারেশন)

  • কনফিগার বিবরণ : উদাহরণ হল স্বতন্ত্র বাক্য যাতে সত্তা রয়েছে।

  • ডেটাসেটের আকার : 20.57 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 82,291,706
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'spans': Sequence({
        'limit': int32,
        'start': int32,
        'type': string,
    }),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
spans ক্রম
স্প্যান/সীমা টেনসর int32
স্প্যান/শুরু টেনসর int32
স্প্যান/টাইপ টেনসর স্ট্রিং
পাঠ্য পাঠ্য স্ট্রিং
শিরোনাম পাঠ্য স্ট্রিং

salient_span_wikipedia/নথিপত্র

  • কনফিগারেশনের বিবরণ : সম্পূর্ণ নথির উদাহরণ।

  • ডেটাসেটের আকার : 16.52 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 13,353,718
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'sentences': Sequence({
        'limit': int32,
        'start': int32,
    }),
    'spans': Sequence({
        'limit': int32,
        'start': int32,
        'type': string,
    }),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
বাক্য ক্রম
বাক্য/সীমা টেনসর int32
বাক্য/শুরু টেনসর int32
spans ক্রম
স্প্যান/সীমা টেনসর int32
স্প্যান/শুরু টেনসর int32
স্প্যান/টাইপ টেনসর স্ট্রিং
পাঠ্য পাঠ্য স্ট্রিং
শিরোনাম পাঠ্য স্ট্রিং