큰_특허

  • 설명 :

BIGPATENT는 사람이 작성한 추상적인 요약과 함께 130만 개의 미국 특허 문서 레코드로 구성되어 있습니다. 각 미국 특허 출원은 CPC(Cooperative Patent Classification) 코드로 제출됩니다. 다음과 같은 9가지 분류 범주가 있습니다.

  • A(인적 필수품),
  • B(작업 수행, 운송),
  • C(화학, 야금),
  • D(직물; 종이),
  • E(고정 구조물),
  • F(기계 공학, 번개, 가열, 무기, 폭파),
  • G(물리학),
  • H(전기) 및
  • Y(신기술 또는 횡단면 기술의 일반 태깅)

두 가지 기능이 있습니다.

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
추상적인 텍스트
설명 텍스트
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all(기본 구성)

  • 구성 설명 : 모든 범주의 특허.

  • 데이터세트 크기 : 35.17 GiB

  • 분할 :

나뉘다
'test' 67,072
'train' 1,207,222
'validation' 67,068

big_patent/a

  • 구성 설명 : CPC(Cooperative Patent Classification)a에 따른 특허: Human Necessities

  • 데이터세트 크기 : 5.16 GiB

  • 분할 :

나뉘다
'test' 9,675
'train' 174,134
'validation' 9,674

big_patent/b

  • 구성 설명 : 협력 특허 분류(CPC)b에 따른 특허: 수행 작업; 운송 중

  • 데이터세트 크기 : 4.06 GiB

  • 분할 :

나뉘다
'test' 8,974
'train' 161,520
'validation' 8,973

big_patent/c

  • 구성 설명 : 협력 특허 분류(CPC)c에 따른 특허: 화학; 야금

  • 데이터세트 크기 : 3.63 GiB

  • 분할 :

나뉘다
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/d

  • 구성 설명 : 협력 특허 분류(CPC)d에 따른 특허: 직물; 종이

  • 데이터 세트 크기 : 255.56 MiB

  • 분할 :

나뉘다
'test' 565
'train' 10,164
'validation' 565

big_patent/e

  • 구성 설명 : CPC(Cooperative Patent Classification)e에 따른 특허: 고정 구조

  • 데이터 세트 크기 : 871.40 MiB

  • 분할 :

나뉘다
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/f

  • 구성 설명 : 협력 특허 분류(CPC)에 따른 특허 f: 기계 공학; 번개; 난방; 무기; 폭파

  • 데이터세트 크기 : 2.06 GiB

  • 분할 :

나뉘다
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

  • Config description : CPC(Cooperative Patent Classification)에 따른 특허g: Physics

  • 데이터세트 크기 : 8.19 GiB

  • 분할 :

나뉘다
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/h

  • 구성 설명 : CPC(Cooperative Patent Classification)에 따른 특허h: 전기

  • 데이터세트 크기 : 7.50 GiB

  • 분할 :

나뉘다
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/년

  • 구성 설명 : CPC(Cooperative Patent Classification)에 따른 특허 y: 신규 또는 단면 기술의 일반 태깅

  • 데이터세트 크기 : 3.46 GiB

  • 분할 :

나뉘다
'test' 6,911
'train' 124,397
'validation' 6,911