- توضیحات :
BillSum، خلاصه ای از لوایح کنگره ایالات متحده و ایالت کالیفرنیا.
چندین ویژگی وجود دارد: - متن: متن صورتحساب. - خلاصه: خلاصه قبوض. - عنوان: عنوان لوایح. ویژگی ها برای ما صورتحساب. صورت حساب ca ندارد. - text_len: تعداد کاراکترها در متن. - sum_len: تعداد کاراکترها به طور خلاصه.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/FiscalNote/BillSum
کد منبع :
tfds.datasets.billsum.Builder
نسخه ها :
-
3.0.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
64.14 MiB
حجم مجموعه داده :
260.84 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'ca_test' | 1,237 |
'test' | 3,269 |
'train' | 18949 |
- ساختار ویژگی :
FeaturesDict({
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
خلاصه | متن | رشته | ||
متن | متن | رشته | ||
عنوان | متن | رشته |
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'summary')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@misc{kornilova2019billsum,
title={BillSum: A Corpus for Automatic Summarization of US Legislation},
author={Anastassia Kornilova and Vlad Eidelman},
year={2019},
eprint={1910.00523},
archivePrefix={arXiv},
primaryClass={cs.CL}
}