- คำอธิบาย :
ชุดข้อมูลนี้ประกอบด้วยคู่การประเมิน PAWS ที่แปลโดยมนุษย์ 23,659 คู่ และคู่การฝึกที่แปลโดยเครื่อง 296,406 คู่ในหกภาษาที่แตกต่างกันตามประเภท:
- ภาษาฝรั่งเศส
- สเปน
- ภาษาเยอรมัน
- ชาวจีน
- ญี่ปุ่น
- เกาหลี
สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารประกอบ: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification ที่ https://arxiv.org/abs/1908.11828
คล้ายกับชุดข้อมูล PAWS ตัวอย่างจะแบ่งออกเป็นส่วน Train/Dev/Test ไฟล์ทั้งหมดอยู่ในรูปแบบ tsv ที่มีสี่คอลัมน์:
-
id
: รหัสเฉพาะสำหรับแต่ละคู่ -
sentence1
ที่ 1 : ประโยคแรก -
sentence2
ที่ 2 : ประโยคที่สอง -
(noisy_)label
: ป้าย (Noisy) สำหรับแต่ละคู่
แต่ละป้ายกำกับมีค่าที่เป็นไปได้สองค่า: 0 หมายถึงคู่มีความหมายต่างกัน ในขณะที่ 1 หมายถึงคู่นั้นเป็นการถอดความ
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/google-research-datasets/paws/tree/master/pawsx
ซอร์สโค้ด :
tfds.datasets.paws_x_wiki.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
28.88 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ประโยค1 | ข้อความ | สตริง | ||
ประโยค2 | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : แปลเป็น de
ขนาดชุดข้อมูล :
15.27 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_x_wiki/th
คำอธิบาย การกำหนดค่า : แปลเป็น en
ขนาดชุดข้อมูล :
14.59 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_x_wiki/es
คำอธิบาย การกำหนดค่า : แปลเป็น es
ขนาดชุดข้อมูล :
15.27 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_x_wiki/เ
คำอธิบาย การกำหนดค่า : แปลเป็น fr
ขนาดชุดข้อมูล :
15.79 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_x_wiki/ja
คำอธิบาย การกำหนดค่า : แปลเป็น ja
ขนาดชุดข้อมูล :
17.77 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_x_wiki/ko
คำอธิบาย การกำหนดค่า : แปลเป็น ko
ขนาดชุดข้อมูล :
16.42 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- ตัวอย่าง ( tfds.as_dataframe ):
paws_x_wiki/zh
คำอธิบาย การกำหนดค่า : แปลเป็น zh
ขนาดชุดข้อมูล :
13.20 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- ตัวอย่าง ( tfds.as_dataframe ):