covid19sum

  • 説明:

CORD-19 は、COVID-19、SARS-CoV-2、および関連するコロナウイルスに関する 33,000 を超える全文を含む 45,000 を超える学術論文のリソースです。

抽象的要約により、COVID-19 の科学文献の情報を整理するのに役立ちます。このデータセットは、これらの記事をドキュメントと full_text-abstract または Introduction-abstract の要約のペアに解析します。

機能には、abstract、full_text、sha (pdf のハッシュ)、source_x (出版物のソース)、title、doi (デジタル オブジェクト識別子)、license、authors、publish_time、journal、url の文字列が含まれます。

  • 追加のドキュメント:コードを使用したペーパーの探索

  • ホームページ: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

  • ソースコード: tfds.summarization.Covid19sum

  • バージョン:

    • 1.0.0 (デフォルト): リリース ノートはありません。
  • ダウンロードサイズ: サイズUnknown size

  • データセットのサイズ: サイズUnknown size

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    このデータセットは、kaggle API から手動でダウンロードする必要があります: kaggle datasets download allen-institute-for-ai/CORD-19-research-challengeダウンロードした zip ファイルを manual フォルダーに配置します。

  • 自動キャッシュ(ドキュメント): 不明

  • スプリット:

スプリット
  • 機能構造:
FeaturesDict({
    'abstract': string,
    'authors': string,
    'body_text': Sequence({
        'section': string,
        'text': string,
    }),
    'doi': string,
    'journal': string,
    'license': string,
    'publish_time': string,
    'sha': string,
    'source_x': string,
    'title': string,
    'url': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
概要テンソルストリング
著者テンソルストリング
本文順序
body_text/セクションテンソルストリング
body_text/テキストテンソルストリング
ドイテンソルストリング
ジャーナルテンソルストリング
ライセンステンソルストリング
publish_timeテンソルストリング
テンソルストリング
ソース_xテンソルストリング
題名テンソルストリング
URLテンソルストリング
@ONLINE {CORD-19-research-challenge,
    author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
    title  = "COVID-19 Open Research Dataset Challenge (CORD-19)",
    month  = "april",
    year   = "2020",
    url    = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}