- Descriptif :
CORD-19 est une ressource de plus de 45 000 articles scientifiques, dont plus de 33 000 en texte intégral, sur le COVID-19, le SRAS-CoV-2 et les coronavirus apparentés.
Aider à organiser les informations dans les littératures scientifiques sur le COVID-19 par le biais d'un résumé abstrait. Cet ensemble de données analyse ces articles en paires de document et résumés de full_text-abstract ou introduction-abstract.
Les fonctionnalités incluent les chaînes suivantes : résumé, texte intégral, sha (hachage du pdf), source_x (source de la publication), titre, doi (identifiant d'objet numérique), licence, auteurs, heure de publication, journal, URL.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
Code source :
tfds.summarization.Covid19sum
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Cet ensemble de données doit être téléchargé manuellement via kaggle api :kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge
Placez le fichier zip téléchargé dans le dossier du manuel.Mise en cache automatique ( documentation ): Inconnu
Fractionnements :
Diviser | Exemples |
---|
- Structure des fonctionnalités :
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
abstrait | Tenseur | chaîne de caractères | ||
auteurs | Tenseur | chaîne de caractères | ||
le corps du texte | Séquence | |||
corps_texte/section | Tenseur | chaîne de caractères | ||
corps_texte/texte | Tenseur | chaîne de caractères | ||
est ce que je | Tenseur | chaîne de caractères | ||
journal | Tenseur | chaîne de caractères | ||
Licence | Tenseur | chaîne de caractères | ||
temps_de_publication | Tenseur | chaîne de caractères | ||
sha | Tenseur | chaîne de caractères | ||
source_x | Tenseur | chaîne de caractères | ||
Titre | Tenseur | chaîne de caractères | ||
URL | Tenseur | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('body_text', 'abstract')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) : Manquant.
Citation :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}