- 설명 :
BIGPATENT는 사람이 작성한 추상적인 요약과 함께 130만 개의 미국 특허 문서 레코드로 구성되어 있습니다. 각 미국 특허 출원은 CPC(Cooperative Patent Classification) 코드로 제출됩니다. 다음과 같은 9가지 분류 범주가 있습니다.
- A(인적 필수품),
- B(작업 수행, 운송),
- C(화학, 야금),
- D(직물; 종이),
- E(고정 구조물),
- F(기계 공학, 번개, 가열, 무기, 폭파),
- G(물리학),
- H(전기) 및
- Y(신기술 또는 횡단면 기술의 일반 태깅)
두 가지 기능이 있습니다.
- 설명: 특허에 대한 자세한 설명.
개요: 특허 개요.
소스 코드 :
tfds.datasets.big_patent.Builder
버전 :
-
1.0.0
: 소문자로 토큰화된 단어 -
2.0.0
: 케이스 처리된 원시 문자열을 사용하도록 업데이트 -
2.1.2
(기본값): 케이스 처리된 원시 문자열에 대한 업데이트를 수정합니다.
-
다운로드 크기 :
9.45 GiB
자동 캐시 ( 문서 ): 아니요
기능 구조 :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
추상적인 | 텍스트 | 끈 | ||
설명 | 텍스트 | 끈 |
감독 키 (
as_supervised
문서 참조):('description', 'abstract')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all(기본 구성)
구성 설명 : 모든 범주의 특허.
데이터세트 크기 :
35.17 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- 예 ( tfds.as_dataframe ):
big_patent/a
구성 설명 : CPC(Cooperative Patent Classification)a에 따른 특허: Human Necessities
데이터세트 크기 :
5.16 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- 예 ( tfds.as_dataframe ):
big_patent/b
구성 설명 : 협력 특허 분류(CPC)b에 따른 특허: 수행 작업; 운송 중
데이터세트 크기 :
4.06 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- 예 ( tfds.as_dataframe ):
big_patent/c
구성 설명 : 협력 특허 분류(CPC)c에 따른 특허: 화학; 야금
데이터세트 크기 :
3.63 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- 예 ( tfds.as_dataframe ):
big_patent/d
구성 설명 : 협력 특허 분류(CPC)d에 따른 특허: 직물; 종이
데이터 세트 크기 :
255.56 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- 예 ( tfds.as_dataframe ):
big_patent/e
구성 설명 : CPC(Cooperative Patent Classification)e에 따른 특허: 고정 구조
데이터 세트 크기 :
871.40 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- 예 ( tfds.as_dataframe ):
big_patent/f
구성 설명 : 협력 특허 분류(CPC)에 따른 특허 f: 기계 공학; 번개; 난방; 무기; 폭파
데이터세트 크기 :
2.06 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- 예 ( tfds.as_dataframe ):
big_patent/g
Config description : CPC(Cooperative Patent Classification)에 따른 특허g: Physics
데이터세트 크기 :
8.19 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- 예 ( tfds.as_dataframe ):
big_patent/h
구성 설명 : CPC(Cooperative Patent Classification)에 따른 특허h: 전기
데이터세트 크기 :
7.50 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- 예 ( tfds.as_dataframe ):
big_patent/년
구성 설명 : CPC(Cooperative Patent Classification)에 따른 특허 y: 신규 또는 단면 기술의 일반 태깅
데이터세트 크기 :
3.46 GiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- 예 ( tfds.as_dataframe ):