- الوصف :
تتكون مجموعة بيانات التقارير الحكومية من تقارير مكتوبة من قبل وكالات الأبحاث الحكومية بما في ذلك خدمة أبحاث الكونغرس ومكتب محاسبة الحكومة الأمريكية.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://gov-report-data.github.io/
كود المصدر :
tfds.summarization.gov_report.GovReport
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
320.59 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report / crs_whitespace (التكوين الافتراضي)
وصف التكوين : تقرير CRS مع ملخص. تم تسطيح الهياكل وربطها بمسافة بيضاء. هذا هو التنسيق المستخدم في الورق الأصلي
حجم مجموعة البيانات :
349.76 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- هيكل الميزة :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
هوية شخصية | نص | سلسلة | ||
تاريخ الإفراج | نص | سلسلة | ||
التقارير | نص | سلسلة | ||
ملخص | نص | سلسلة | ||
لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('reports', 'summary')
أمثلة ( tfds.as_dataframe ):
gov_report / gao_whitespace
وصف التكوين : تقرير GAO مع تمييز الهياكل بالارض وربطها بمسافة بيضاء. هذا هو التنسيق المستخدم في الورق الأصلي
حجم مجموعة البيانات :
690.24 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 611 |
'train' | 11،005 |
'validation' | 612 |
- هيكل الميزة :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
حقيقة سريع | نص | سلسلة | ||
تسليط الضوء | نص | سلسلة | ||
هوية شخصية | نص | سلسلة | ||
تاريخ النشر | نص | سلسلة | ||
تاريخ الإفراج | نص | سلسلة | ||
أبلغ عن | نص | سلسلة | ||
لقب | نص | سلسلة | ||
عنوان url | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('report', 'highlight')
أمثلة ( tfds.as_dataframe ):
gov_report / crs_html
وصف التكوين : تقرير CRS مع ملخص. تم تسوية الهياكل وضمها بواسطة سطر جديد أثناء إضافة علامات html. تتم إضافة العلامات فقط لـ secition_title بتنسيق مثل
<h2>xxx<h2>
.حجم مجموعة البيانات :
351.25 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- هيكل الميزة :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
هوية شخصية | نص | سلسلة | ||
تاريخ الإفراج | نص | سلسلة | ||
التقارير | نص | سلسلة | ||
ملخص | نص | سلسلة | ||
لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('reports', 'summary')
أمثلة ( tfds.as_dataframe ):
gov_report / gao_html
وصف التكوين : تقرير GAO مع تمييز الهياكل تم تسويتها وضمها بواسطة سطر جديد أثناء إضافة علامات html. تتم إضافة العلامات فقط لـ secition_title بتنسيق مثل
<h2>xxx<h2>
.حجم مجموعة البيانات :
692.72 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 611 |
'train' | 11،005 |
'validation' | 612 |
- هيكل الميزة :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
حقيقة سريع | نص | سلسلة | ||
تسليط الضوء | نص | سلسلة | ||
هوية شخصية | نص | سلسلة | ||
تاريخ النشر | نص | سلسلة | ||
تاريخ الإفراج | نص | سلسلة | ||
أبلغ عن | نص | سلسلة | ||
لقب | نص | سلسلة | ||
عنوان url | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('report', 'highlight')
أمثلة ( tfds.as_dataframe ):
gov_report / crs_json
وصف التكوين : تقرير CRS مع ملخص. الهياكل الممثلة في شكل json الخام.
حجم مجموعة البيانات :
361.92 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 362 |
'train' | 6514 |
'validation' | 362 |
- هيكل الميزة :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
هوية شخصية | نص | سلسلة | ||
تاريخ الإفراج | نص | سلسلة | ||
التقارير | نص | سلسلة | ||
ملخص | نص | سلسلة | ||
لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('reports', 'summary')
أمثلة ( tfds.as_dataframe ):
gov_report / gao_json
وصف التهيئة : تقرير GAO مع تمييز الهياكل الممثلة كـ json raw.
حجم مجموعة البيانات :
712.82 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 611 |
'train' | 11،005 |
'validation' | 612 |
- هيكل الميزة :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
حقيقة سريع | نص | سلسلة | ||
تسليط الضوء | نص | سلسلة | ||
هوية شخصية | نص | سلسلة | ||
تاريخ النشر | نص | سلسلة | ||
تاريخ الإفراج | نص | سلسلة | ||
أبلغ عن | نص | سلسلة | ||
لقب | نص | سلسلة | ||
عنوان url | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('report', 'highlight')
أمثلة ( tfds.as_dataframe ):