- คำอธิบาย :
ชุดข้อมูลระบุการถอดความที่มีอยู่ไม่มีคู่ประโยคที่มีการทับซ้อนของคำศัพท์สูงโดยไม่ต้องถอดความ โมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลดังกล่าวไม่สามารถแยกความแตกต่างระหว่างเที่ยวบินจากนิวยอร์กไปยังฟลอริดาและเที่ยวบินจากฟลอริดาไปยังนิวยอร์กได้ ชุดข้อมูลนี้ประกอบด้วยคู่ที่มีป้ายกำกับโดยมนุษย์ 108,463 คู่ และคู่ที่มีป้ายกำกับที่มีเสียงดัง 656k คู่ ซึ่งแสดงความสำคัญของโครงสร้างแบบจำลอง บริบท และข้อมูลลำดับคำสำหรับปัญหาในการระบุการถอดความ
สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารประกอบ: PAWS: Paraphrase Adversaries from Word Scrambling ที่ https://arxiv.org/abs/1904.01130
คลังข้อมูลนี้มีคู่ที่สร้างจากหน้าวิกิพีเดีย ประกอบด้วยคู่ที่สร้างจากทั้งวิธีการสลับคำและการแปลกลับ ทุกคู่มีวิจารณญาณของมนุษย์ทั้งเรื่องการถอดความและความคล่องแคล่ว และจะแบ่งออกเป็นส่วนฝึกฝน/พัฒนา/ทดสอบ
ไฟล์ทั้งหมดอยู่ในรูปแบบ tsv ที่มีสี่คอลัมน์:
-
id
: รหัสเฉพาะสำหรับแต่ละคู่ -
sentence1
ที่ 1 : ประโยคแรก -
sentence2
ที่ 2 : ประโยคที่สอง -
(noisy_)label
: ป้าย (Noisy) สำหรับแต่ละคู่
แต่ละป้ายกำกับมีค่าที่เป็นไปได้สองค่า: 0 หมายถึงคู่มีความหมายต่างกัน ในขณะที่ 1 หมายถึงคู่นั้นเป็นการถอดความ
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
ซอร์สโค้ด :
tfds.datasets.paws_wiki.Builder
รุ่น :
-
1.0.0
: เวอร์ชันเริ่มต้น -
1.1.0
(ค่าเริ่มต้น): เพิ่มการกำหนดค่าไปยังชุดย่อยต่างๆ และรองรับข้อความดิบ
-
ขนาดการดาวน์โหลด :
57.47 MiB
โครงสร้างคุณลักษณะ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ประโยค1 | ข้อความ | สตริง | ||
ประโยค2 | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_final tokenized: True
ขนาดชุดข้อมูล :
17.96 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_final tokenized: False
ขนาดชุดข้อมูล :
17.57 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_swap tokenized: True
ขนาดชุดข้อมูล :
8.79 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 30,397 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_swap tokenized: False
ขนาดชุดข้อมูล :
8.60 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 30,397 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
คำอธิบายการกำหนดค่า : ชุดย่อย: unlabeled_final tokenized: True
ขนาดชุดข้อมูล :
177.89 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ใช่ (การตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 645,652 |
'validation' | 10,000 |
- ตัวอย่าง ( tfds.as_dataframe ):