سموم

توضیحات :

SAMSum Corpus حاوی بیش از 16 هزار گفتگوی چت با خلاصه های دستی است.

دو ویژگی وجود دارد:

گفتگو: متن گفتگو.
خلاصه: خلاصه مکتوب انسان از گفتگو.
id: شناسه یک مثال.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://arxiv.org/src/1911.12237v2/anc
کد منبع : tfds.datasets.samsum.Builder
نسخه ها :
- 1.0.0 (پیش فرض): بدون یادداشت انتشار.
اندازه دانلود : Unknown size
حجم مجموعه داده : 10.71 MiB
دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
https://arxiv.org/src/1911.12237v2/anc/corpus.7z را دانلود کنید، فشرده سازی کنید و train.json، val.json و test.json را در پوشه manual قرار دهید.
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'test'`	819
`'train'`	14732
`'validation'`	818

ساختار ویژگی :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
گفتگو	متن	رشته
شناسه	متن	رشته
خلاصه	متن	رشته

کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('dialogue', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}

سموم با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

سموم