gov_report

  • Descriptif :

L'ensemble de données des rapports gouvernementaux se compose de rapports rédigés par des agences de recherche gouvernementales, notamment le Congressional Research Service et le US Government Accountability Office.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace (configuration par défaut)

  • Description de la configuration : rapport CRS avec résumé. Structures aplaties et reliées par des espaces blancs. C'est le format utilisé par le papier original

  • Taille du jeu de données : 349.76 MiB

  • Fractionnements :

Diviser Exemples
'test' 362
'train' 6 514
'validation' 362
  • Structure des fonctionnalités :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
identifiant Texte chaîne de caractères
date de parution Texte chaîne de caractères
rapports Texte chaîne de caractères
sommaire Texte chaîne de caractères
Titre Texte chaîne de caractères

gov_report/gao_whitespace

  • Description de la configuration : rapport GAO avec des structures en surbrillance aplaties et jointes par des espaces. C'est le format utilisé par le papier original

  • Taille du jeu de données : 690.24 MiB

  • Fractionnements :

Diviser Exemples
'test' 611
'train' 11 005
'validation' 612
  • Structure des fonctionnalités :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
fait rapide Texte chaîne de caractères
souligner Texte chaîne de caractères
identifiant Texte chaîne de caractères
date de publication Texte chaîne de caractères
date de parution Texte chaîne de caractères
rapport Texte chaîne de caractères
Titre Texte chaîne de caractères
URL Texte chaîne de caractères

gov_report/crs_html

  • Description de la configuration : rapport CRS avec résumé. Structures aplaties et jointes par une nouvelle ligne tout en ajoutant des balises html. Les balises ne sont ajoutées que pour section_title dans un format tel que <h2>xxx<h2> .

  • Taille du jeu de données : 351.25 MiB

  • Fractionnements :

Diviser Exemples
'test' 362
'train' 6 514
'validation' 362
  • Structure des fonctionnalités :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
identifiant Texte chaîne de caractères
date de parution Texte chaîne de caractères
rapports Texte chaîne de caractères
sommaire Texte chaîne de caractères
Titre Texte chaîne de caractères

gov_report/gao_html

  • Description de la configuration : Rapport GAO avec des structures en surbrillance aplaties et jointes par une nouvelle ligne tout en ajoutant des balises html. Les balises ne sont ajoutées que pour section_title dans un format tel que <h2>xxx<h2> .

  • Taille du jeu de données : 692.72 MiB

  • Fractionnements :

Diviser Exemples
'test' 611
'train' 11 005
'validation' 612
  • Structure des fonctionnalités :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
fait rapide Texte chaîne de caractères
souligner Texte chaîne de caractères
identifiant Texte chaîne de caractères
date de publication Texte chaîne de caractères
date de parution Texte chaîne de caractères
rapport Texte chaîne de caractères
Titre Texte chaîne de caractères
URL Texte chaîne de caractères

gov_report/crs_json

  • Description de la configuration : rapport CRS avec résumé. Structures représentées sous forme de json brut.

  • Taille du jeu de données : 361.92 MiB

  • Fractionnements :

Diviser Exemples
'test' 362
'train' 6 514
'validation' 362
  • Structure des fonctionnalités :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
identifiant Texte chaîne de caractères
date de parution Texte chaîne de caractères
rapports Texte chaîne de caractères
sommaire Texte chaîne de caractères
Titre Texte chaîne de caractères

gov_report/gao_json

  • Description de la configuration : rapport GAO avec les structures en surbrillance représentées sous forme de json brut.

  • Taille du jeu de données : 712.82 MiB

  • Fractionnements :

Diviser Exemples
'test' 611
'train' 11 005
'validation' 612
  • Structure des fonctionnalités :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
fait rapide Texte chaîne de caractères
souligner Texte chaîne de caractères
identifiant Texte chaîne de caractères
date de publication Texte chaîne de caractères
date de parution Texte chaîne de caractères
rapport Texte chaîne de caractères
Titre Texte chaîne de caractères
URL Texte chaîne de caractères