- คำอธิบาย :
ชุดข้อมูลการขยายตัวย่อทางการแพทย์ซึ่งใช้การแทนที่แบบย้อนกลับมาตราส่วนเว็บ (wsrs) กับชุดข้อมูล C4 ซึ่งเป็นคลังข้อมูลการรวบรวมข้อมูลเว็บของ Common Crawl รุ่นใหญ่ที่สะอาด
แหล่งที่มาดั้งเดิมคือชุดข้อมูล Common Crawl: https://commoncrawl.org
คำอธิบาย การกำหนดค่า : ชุดข้อมูล C4-WSRS เริ่มต้น
หน้าแรก : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
รหัสที่มา :
tfds.text.c4_wsrs.C4WSRS
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
143.01 KiB
ขนาดชุดข้อมูล :
5.84 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ตัวย่อ_snippet | ข้อความ | สตริง | ||
original_snippet | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :