- 説明:
CORD-19 は、COVID-19、SARS-CoV-2、および関連するコロナウイルスに関する 33,000 を超える全文を含む 45,000 を超える学術論文のリソースです。
抽象的要約により、COVID-19 の科学文献の情報を整理するのに役立ちます。このデータセットは、これらの記事をドキュメントと full_text-abstract または Introduction-abstract の要約のペアに解析します。
機能には、abstract、full_text、sha (pdf のハッシュ)、source_x (出版物のソース)、title、doi (デジタル オブジェクト識別子)、license、authors、publish_time、journal、url の文字列が含まれます。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
ソースコード:
tfds.summarization.Covid19sum
バージョン:
-
1.0.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown size
データセットのサイズ: サイズ
Unknown size
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
このデータセットは、kaggle API から手動でダウンロードする必要があります:kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge
ダウンロードした zip ファイルを manual フォルダーに配置します。自動キャッシュ(ドキュメント): 不明
スプリット:
スプリット | 例 |
---|
- 機能構造:
FeaturesDict({
'abstract': string,
'authors': string,
'body_text': Sequence({
'section': string,
'text': string,
}),
'doi': string,
'journal': string,
'license': string,
'publish_time': string,
'sha': string,
'source_x': string,
'title': string,
'url': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
概要 | テンソル | ストリング | ||
著者 | テンソル | ストリング | ||
本文 | 順序 | |||
body_text/セクション | テンソル | ストリング | ||
body_text/テキスト | テンソル | ストリング | ||
ドイ | テンソル | ストリング | ||
ジャーナル | テンソル | ストリング | ||
ライセンス | テンソル | ストリング | ||
publish_time | テンソル | ストリング | ||
社 | テンソル | ストリング | ||
ソース_x | テンソル | ストリング | ||
題名 | テンソル | ストリング | ||
URL | テンソル | ストリング |
監視されたキー(
as_supervised
docを参照):('body_text', 'abstract')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ): ありません。
引用:
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}