- توضیحات :
مجموعه داده گزارش دولتی شامل گزارش هایی است که توسط آژانس های تحقیقاتی دولتی از جمله سرویس تحقیقات کنگره و دفتر پاسخگویی دولت ایالات متحده نوشته شده است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://gov-report-data.github.io/
کد منبع :
tfds.summarization.gov_report.GovReport
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
320.59 MiB
ذخیره خودکار ( اسناد ): خیر
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report/crs_whitespace (پیکربندی پیشفرض)
توضیحات پیکربندی : گزارش CRS با خلاصه. سازه ها مسطح شده و با فضای سفید به هم می پیوندند. این قالبی است که توسط کاغذ اصلی استفاده می شود
حجم مجموعه داده :
349.76 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- ساختار ویژگی :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | متن | رشته | ||
تاریخ انتشار | متن | رشته | ||
گزارش ها | متن | رشته | ||
خلاصه | متن | رشته | ||
عنوان | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
نظارت شده مراجعه کنید):('reports', 'summary')
مثالها ( tfds.as_dataframe ):
gov_report/gao_whitespace
توضیحات پیکربندی : گزارش GAO با ساختارهای برجسته صاف شده و با فضای سفید به هم پیوسته است. این قالبی است که توسط کاغذ اصلی استفاده می شود
حجم مجموعه داده :
690.24 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 611 |
'train' | 11005 |
'validation' | 612 |
- ساختار ویژگی :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
fastfact | متن | رشته | ||
برجسته | متن | رشته | ||
شناسه | متن | رشته | ||
انتشار_تاریخ | متن | رشته | ||
تاریخ انتشار | متن | رشته | ||
گزارش | متن | رشته | ||
عنوان | متن | رشته | ||
آدرس اینترنتی | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('report', 'highlight')
مثالها ( tfds.as_dataframe ):
gov_report/crs_html
توضیحات پیکربندی : گزارش CRS با خلاصه. ساختارها صاف شده و با خط جدید به هم پیوسته و تگ های html را اضافه می کنند. برچسبها فقط برای secition_title در قالبی مانند
<h2>xxx<h2>
اضافه میشوند.حجم مجموعه داده :
351.25 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- ساختار ویژگی :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | متن | رشته | ||
تاریخ انتشار | متن | رشته | ||
گزارش ها | متن | رشته | ||
خلاصه | متن | رشته | ||
عنوان | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
نظارت شده مراجعه کنید):('reports', 'summary')
مثالها ( tfds.as_dataframe ):
gov_report/gao_html
توضیحات پیکربندی : گزارش GAO با ساختارهای هایلایت پهن شده و با خط جدید وصل شده و تگ های html اضافه می شود. برچسبها فقط برای secition_title در قالبی مانند
<h2>xxx<h2>
اضافه میشوند.حجم مجموعه داده :
692.72 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 611 |
'train' | 11005 |
'validation' | 612 |
- ساختار ویژگی :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
fastfact | متن | رشته | ||
برجسته | متن | رشته | ||
شناسه | متن | رشته | ||
انتشار_تاریخ | متن | رشته | ||
تاریخ انتشار | متن | رشته | ||
گزارش | متن | رشته | ||
عنوان | متن | رشته | ||
آدرس اینترنتی | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('report', 'highlight')
مثالها ( tfds.as_dataframe ):
gov_report/crs_json
توضیحات پیکربندی : گزارش CRS با خلاصه. ساختارها به صورت json خام نمایش داده می شوند.
حجم مجموعه داده :
361.92 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- ساختار ویژگی :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | متن | رشته | ||
تاریخ انتشار | متن | رشته | ||
گزارش ها | متن | رشته | ||
خلاصه | متن | رشته | ||
عنوان | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
نظارت شده مراجعه کنید):('reports', 'summary')
مثالها ( tfds.as_dataframe ):
gov_report/gao_json
توضیحات پیکربندی : گزارش GAO با ساختارهای برجسته که به صورت json خام نشان داده شده است.
حجم مجموعه داده :
712.82 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 611 |
'train' | 11005 |
'validation' | 612 |
- ساختار ویژگی :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
fastfact | متن | رشته | ||
برجسته | متن | رشته | ||
شناسه | متن | رشته | ||
انتشار_تاریخ | متن | رشته | ||
تاریخ انتشار | متن | رشته | ||
گزارش | متن | رشته | ||
عنوان | متن | رشته | ||
آدرس اینترنتی | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('report', 'highlight')
مثالها ( tfds.as_dataframe ):