TFDS はCroissant 🥐 形式をサポートするようになりました。詳細については、ドキュメントをお読みください。

このページは Cloud Translation API によって翻訳されました。

big_patent

説明:

BIGPATENT。130 万件の米国特許文書のレコードと人間が書いた抽象的な要約で構成されています。各米国特許出願は、共同特許分類 (CPC) コードに基づいて提出されます。このような分類カテゴリは 9 つあります。

A (人的必需品)、
B (作業の実行、輸送)、
C (化学; 冶金)、
D（繊維、紙）、
E (固定構造)、
F (機械工学、雷、加熱、武器、爆破)、
G（物理学）、
H（電気）、および
Y (新しい技術または横断的な技術の一般的なタグ付け)

次の 2 つの特徴があります。

description: 特許の詳細な説明。
要約: 特許要約。
追加ドキュメント:コード付きの論文について調べる
ホームページ: https://evasharma.github.io/bigpatent/
ソースコード: tfds.datasets.big_patent.Builder
バージョン:
- 1.0.0 : 小文字のトークン化された単語
- 2.0.0 : 大文字と小文字を区別した生の文字列を使用するように更新
- 2.1.2 (デフォルト): 大文字と小文字を区別した生の文字列への更新を修正しました。
ダウンロードサイズ: 9.45 GiB
自動キャッシュ(ドキュメント): いいえ
機能の構造:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})

機能ドキュメント:

特徴	クラス	Dタイプ
	特徴辞書
概要	文章	弦
説明	文章	弦

監視キー( as_supervised docを参照): ('description', 'abstract')
図( tfds.show_examples ): サポートされていません。
引用：

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (デフォルト設定)

構成の説明: すべてのカテゴリの特許。
データセットのサイズ: 35.17 GiB
分割:

スプリット	例
`'test'`	67,072
`'train'`	1,207,222
`'validation'`	67,068

例( tfds.as_dataframe ):

ビッグパテント/a

構成の説明: 協同特許分類 (CPC) に基づく特許 a: 人間の必需品
データセットのサイズ: 5.16 GiB
分割:

スプリット	例
`'test'`	9,675
`'train'`	174,134
`'validation'`	9,674

例( tfds.as_dataframe ):

ビッグパテント/b

構成の説明: 協力特許分類 (CPC) に基づく特許 b: 操作の実行。輸送
データセットのサイズ: 4.06 GiB
分割:

スプリット	例
`'test'`	8,974
`'train'`	161,520
`'validation'`	8,973

例( tfds.as_dataframe ):

big_patent/c

構成の説明: 協同特許分類 (CPC) に基づく特許 c: 化学。冶金
データセットのサイズ: 3.63 GiB
分割:

スプリット	例
`'test'`	5,614
`'train'`	101,042
`'validation'`	5,613

例( tfds.as_dataframe ):

big_patent/d

構成の説明: 協同特許分類 (CPC) に基づく特許: 繊維;紙
データセットのサイズ: 255.56 MiB
分割:

スプリット	例
`'test'`	565
`'train'`	10,164
`'validation'`	565

例( tfds.as_dataframe ):

big_patent/e

構成の説明: 協同特許分類 (CPC) に基づく特許 e: 固定構造
データセットのサイズ: 871.40 MiB
分割:

スプリット	例
`'test'`	1,914
`'train'`	34,443
`'validation'`	1,914

例( tfds.as_dataframe ):

big_patent/f

構成の説明: 共同特許分類 (CPC) に基づく特許: 機械工学。雷;暖房;兵器;ブラスト
データセットのサイズ: 2.06 GiB
分割:

スプリット	例
`'test'`	4,754
`'train'`	85,568
`'validation'`	4,754

例( tfds.as_dataframe ):

big_patent/g

構成の説明: 協同特許分類 (CPC) に基づく特許 g: 物理学
データセットのサイズ: 8.19 GiB
分割:

スプリット	例
`'test'`	14,386
`'train'`	258,935
`'validation'`	14,385

例( tfds.as_dataframe ):

big_patent/h

構成の説明: 協同特許分類 (CPC) に基づく特許 h: 電気
データセットのサイズ: 7.50 GiB
分割:

スプリット	例
`'test'`	14,279
`'train'`	257,019
`'validation'`	14,279

例( tfds.as_dataframe ):

big_patent/y

構成の説明: 共同特許分類 (CPC) に基づく特許 y: 新しい技術または横断的な技術の一般的なタグ付け
データセットのサイズ: 3.46 GiB
分割:

スプリット	例
`'test'`	6,911
`'train'`	124,397
`'validation'`	6,911

例( tfds.as_dataframe ):

big_patent コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。