- 説明:
科学論文データセットには、構造化された長いドキュメントの 2 つのセットが含まれています。データセットは、ArXiv および PubMed OpenAccess リポジトリから取得されます。
「arxiv」と「pubmed」の両方に 2 つの機能があります。
- article: ドキュメントの本文、「/n」で区切られた段落。
- 要約: ドキュメントの要約、「/n」で区切られたページ。
section_names: "/n" で区切られたセクションのタイトル。
追加のドキュメント:コード を使用したペーパーの探索
バージョン:
-
1.1.0
: リリース ノートはありません。 -
1.1.1
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
4.20 GiB
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
概要 | 文章 | ストリング | ||
記事 | 文章 | ストリング | ||
section_names | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('article', 'abstract')
図( tfds.show_examples ): サポートされていません。
引用:
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers/arxiv (デフォルト設定)
構成の説明: ArXiv リポジトリからのドキュメント。
データセットサイズ:
7.07 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,440 |
'train' | 203,037 |
'validation' | 6,436 |
- 例( tfds.as_dataframe ):
Scientific_papers/pubmed
構成の説明: PubMed リポジトリからのドキュメント。
データセットサイズ:
2.34 GiB
スプリット:
スプリット | 例 |
---|---|
'test' | 6,658 |
'train' | 119,924 |
'validation' | 6,633 |
- 例( tfds.as_dataframe ):