- คำอธิบาย :
BIGPATENT ประกอบด้วยบันทึกเอกสารสิทธิบัตรของสหรัฐอเมริกาจำนวน 1.3 ล้านฉบับ พร้อมด้วยบทสรุปเชิงนามธรรมที่เขียนโดยมนุษย์ คำขอรับสิทธิบัตรของสหรัฐอเมริกาแต่ละรายการยื่นภายใต้รหัส Cooperative Patent Classification (CPC) การจำแนกประเภทนี้มีเก้าประเภท:
- A (ความจำเป็นของมนุษย์),
- B (การปฏิบัติงาน; การขนส่ง),
- C (เคมี โลหะวิทยา)
- D (สิ่งทอ กระดาษ)
- E (โครงสร้างคงที่),
- F (วิศวกรรมเครื่องกล สายฟ้า ความร้อน อาวุธ การระเบิด)
- G (ฟิสิกส์),
- H (ไฟฟ้า) และ
- Y (การติดแท็กทั่วไปของเทคโนโลยีใหม่หรือภาคตัดขวาง)
มีสองคุณสมบัติ:
- คำอธิบาย: คำอธิบายโดยละเอียดของสิทธิบัตร
สรุป: บทคัดย่อสิทธิบัตร.
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://evasharma.github.io/bigpatent/
รหัสที่มา :
tfds.datasets.big_patent.Builder
รุ่น :
-
1.0.0
: คำโทเค็นตัวพิมพ์เล็ก -
2.0.0
: อัปเดตเพื่อใช้สตริงดิบที่ใส่เคส -
2.1.2
(ค่าเริ่มต้น): แก้ไขการอัปเดตเป็นสตริงดิบที่ใส่เคส
-
ขนาดการดาวน์โหลด :
9.45 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เชิงนามธรรม | ข้อความ | สตริง | ||
คำอธิบาย | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('description', 'abstract')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (การกำหนดค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : สิทธิบัตรในทุกหมวดหมู่
ขนาดชุดข้อมูล :
35.17 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ก
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้ Cooperative Patent Classification (CPC)ก: ความจำเป็นของมนุษย์
ขนาดชุดข้อมูล :
5.16 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ข
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)b: การดำเนินการ; การขนส่ง
ขนาดชุดข้อมูล :
4.06 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ค
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)c: เคมี; โลหะวิทยา
ขนาดชุดข้อมูล :
3.63 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ด
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)d: สิ่งทอ; กระดาษ
ขนาดชุดข้อมูล :
255.56 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/จ
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)e: โครงสร้างคงที่
ขนาดชุดข้อมูล :
871.40 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ฉ
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)f: วิศวกรรมเครื่องกล; ฟ้าผ่า; เครื่องทำความร้อน; อาวุธ; ระเบิด
ขนาดชุดข้อมูล :
2.06 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ก
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)g: ฟิสิกส์
ขนาดชุดข้อมูล :
8.19 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ชม
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)h: ไฟฟ้า
ขนาดชุดข้อมูล :
7.50 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- ตัวอย่าง ( tfds.as_dataframe ):
big_patent/ย
คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้ Cooperative Patent Classification (CPC)y: การติดแท็กทั่วไปของเทคโนโลยีใหม่หรือภาคตัดขวาง
ขนาดชุดข้อมูล :
3.46 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- ตัวอย่าง ( tfds.as_dataframe ):