- 説明:
BIGPATENT。130 万件の米国特許文書のレコードと人間が書いた抽象的な要約で構成されています。各米国特許出願は、共同特許分類 (CPC) コードに基づいて提出されます。このような分類カテゴリは 9 つあります。
- A (人的必需品)、
- B (作業の実行、輸送)、
- C (化学; 冶金)、
- D(繊維、紙)、
- E (固定構造)、
- F (機械工学、雷、加熱、武器、爆破)、
- G(物理学)、
- H(電気)、および
- Y (新しい技術または横断的な技術の一般的なタグ付け)
次の 2 つの特徴があります。
- description: 特許の詳細な説明。
要約: 特許要約。
追加ドキュメント:コード付きの論文について調べる
ソースコード:
tfds.datasets.big_patent.Builder
バージョン:
-
1.0.0
: 小文字のトークン化された単語 2.0.0
: 大文字と小文字を区別した生の文字列を使用するように更新2.1.2
(デフォルト): 大文字と小文字を区別した生の文字列への更新を修正しました。
-
ダウンロードサイズ:
9.45 GiB
自動キャッシュ(ドキュメント): いいえ
機能の構造:
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dタイプ | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
概要 | 文章 | 弦 | ||
説明 | 文章 | 弦 |
監視キー(
as_supervised
docを参照):('description', 'abstract')
図( tfds.show_examples ): サポートされていません。
引用:
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (デフォルト設定)
構成の説明: すべてのカテゴリの特許。
データセットのサイズ:
35.17 GiB
分割:
スプリット | 例 |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- 例( tfds.as_dataframe ):
ビッグパテント/a
構成の説明: 協同特許分類 (CPC) に基づく特許 a: 人間の必需品
データセットのサイズ:
5.16 GiB
分割:
スプリット | 例 |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- 例( tfds.as_dataframe ):
ビッグパテント/b
構成の説明: 協力特許分類 (CPC) に基づく特許 b: 操作の実行。輸送
データセットのサイズ:
4.06 GiB
分割:
スプリット | 例 |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- 例( tfds.as_dataframe ):
big_patent/c
構成の説明: 協同特許分類 (CPC) に基づく特許 c: 化学。冶金
データセットのサイズ:
3.63 GiB
分割:
スプリット | 例 |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- 例( tfds.as_dataframe ):
big_patent/d
構成の説明: 協同特許分類 (CPC) に基づく特許: 繊維;紙
データセットのサイズ:
255.56 MiB
分割:
スプリット | 例 |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- 例( tfds.as_dataframe ):
big_patent/e
構成の説明: 協同特許分類 (CPC) に基づく特許 e: 固定構造
データセットのサイズ:
871.40 MiB
分割:
スプリット | 例 |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- 例( tfds.as_dataframe ):
big_patent/f
構成の説明: 共同特許分類 (CPC) に基づく特許: 機械工学。雷;暖房;兵器;ブラスト
データセットのサイズ:
2.06 GiB
分割:
スプリット | 例 |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- 例( tfds.as_dataframe ):
big_patent/g
構成の説明: 協同特許分類 (CPC) に基づく特許 g: 物理学
データセットのサイズ:
8.19 GiB
分割:
スプリット | 例 |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- 例( tfds.as_dataframe ):
big_patent/h
構成の説明: 協同特許分類 (CPC) に基づく特許 h: 電気
データセットのサイズ:
7.50 GiB
分割:
スプリット | 例 |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- 例( tfds.as_dataframe ):
big_patent/y
構成の説明: 共同特許分類 (CPC) に基づく特許 y: 新しい技術または横断的な技術の一般的なタグ付け
データセットのサイズ:
3.46 GiB
分割:
スプリット | 例 |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- 例( tfds.as_dataframe ):