paws_x_wiki

  • คำอธิบาย :

ชุดข้อมูลนี้ประกอบด้วยคู่การประเมิน PAWS ที่แปลโดยมนุษย์ 23,659 คู่ และคู่การฝึกที่แปลโดยเครื่อง 296,406 คู่ในหกภาษาที่แตกต่างกันตามประเภท:

  • ภาษาฝรั่งเศส
  • สเปน
  • ภาษาเยอรมัน
  • ชาวจีน
  • ญี่ปุ่น
  • เกาหลี

สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารประกอบ: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification ที่ https://arxiv.org/abs/1908.11828

คล้ายกับชุดข้อมูล PAWS ตัวอย่างจะแบ่งออกเป็นส่วน Train/Dev/Test ไฟล์ทั้งหมดอยู่ในรูปแบบ tsv ที่มีสี่คอลัมน์:

  1. id : รหัสเฉพาะสำหรับแต่ละคู่
  2. sentence1 ที่ 1 : ประโยคแรก
  3. sentence2 ที่ 2 : ประโยคที่สอง
  4. (noisy_)label : ป้าย (Noisy) สำหรับแต่ละคู่

แต่ละป้ายกำกับมีค่าที่เป็นไปได้สองค่า: 0 หมายถึงคู่มีความหมายต่างกัน ในขณะที่ 1 หมายถึงคู่นั้นเป็นการถอดความ

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ฉลาก ป้ายกำกับคลาส int64
ประโยค1 ข้อความ สตริง
ประโยค2 ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : แปลเป็น de

  • ขนาดชุดข้อมูล : 15.27 MiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/th

  • คำอธิบาย การกำหนดค่า : แปลเป็น en

  • ขนาดชุดข้อมูล : 14.59 MiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • คำอธิบาย การกำหนดค่า : แปลเป็น es

  • ขนาดชุดข้อมูล : 15.27 MiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki/เ

  • คำอธิบาย การกำหนดค่า : แปลเป็น fr

  • ขนาดชุดข้อมูล : 15.79 MiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • คำอธิบาย การกำหนดค่า : แปลเป็น ja

  • ขนาดชุดข้อมูล : 17.77 MiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • คำอธิบาย การกำหนดค่า : แปลเป็น ko

  • ขนาดชุดข้อมูล : 16.42 MiB

  • แยก :

แยก ตัวอย่าง
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki/zh

  • คำอธิบาย การกำหนดค่า : แปลเป็น zh

  • ขนาดชุดข้อมูล : 13.20 MiB

  • แยก :

แยก ตัวอย่าง
'test' 2,000
'train' 49,401
'validation' 2,000