paws_wiki

คำอธิบาย :

ชุดข้อมูลระบุการถอดความที่มีอยู่ไม่มีคู่ประโยคที่มีการทับซ้อนของคำศัพท์สูงโดยไม่ต้องถอดความ โมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลดังกล่าวไม่สามารถแยกความแตกต่างระหว่างเที่ยวบินจากนิวยอร์กไปยังฟลอริดาและเที่ยวบินจากฟลอริดาไปยังนิวยอร์กได้ ชุดข้อมูลนี้ประกอบด้วยคู่ที่มีป้ายกำกับโดยมนุษย์ 108,463 คู่ และคู่ที่มีป้ายกำกับที่มีเสียงดัง 656k คู่ ซึ่งแสดงความสำคัญของโครงสร้างแบบจำลอง บริบท และข้อมูลลำดับคำสำหรับปัญหาในการระบุการถอดความ

สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารประกอบ: PAWS: Paraphrase Adversaries from Word Scrambling ที่ https://arxiv.org/abs/1904.01130

คลังข้อมูลนี้มีคู่ที่สร้างจากหน้าวิกิพีเดีย ประกอบด้วยคู่ที่สร้างจากทั้งวิธีการสลับคำและการแปลกลับ ทุกคู่มีวิจารณญาณของมนุษย์ทั้งเรื่องการถอดความและความคล่องแคล่ว และจะแบ่งออกเป็นส่วนฝึกฝน/พัฒนา/ทดสอบ

ไฟล์ทั้งหมดอยู่ในรูปแบบ tsv ที่มีสี่คอลัมน์:

id : รหัสเฉพาะสำหรับแต่ละคู่
sentence1 ที่ 1 : ประโยคแรก
sentence2 ที่ 2 : ประโยคที่สอง
(noisy_)label : ป้าย (Noisy) สำหรับแต่ละคู่

แต่ละป้ายกำกับมีค่าที่เป็นไปได้สองค่า: 0 หมายถึงคู่มีความหมายต่างกัน ในขณะที่ 1 หมายถึงคู่นั้นเป็นการถอดความ

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/google-research-datasets/paws
ซอร์สโค้ด : tfds.datasets.paws_wiki.Builder
รุ่น :
- 1.0.0 : เวอร์ชันเริ่มต้น
- 1.1.0 (ค่าเริ่มต้น): เพิ่มการกำหนดค่าไปยังชุดย่อยต่างๆ และรองรับข้อความดิบ
ขนาดการดาวน์โหลด : 57.47 MiB
โครงสร้างคุณลักษณะ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
ฉลาก	ป้ายกำกับคลาส	int64
ประโยค1	ข้อความ	สตริง
ประโยค2	ข้อความ	สตริง

คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (การกำหนดค่าเริ่มต้น)

คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_final tokenized: True
ขนาดชุดข้อมูล : 17.96 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

ตัวอย่าง ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_final tokenized: False
ขนาดชุดข้อมูล : 17.57 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

ตัวอย่าง ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_swap tokenized: True
ขนาดชุดข้อมูล : 8.79 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	30,397

ตัวอย่าง ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

คำอธิบาย การกำหนดค่า : ชุดย่อย: labeled_swap tokenized: False
ขนาดชุดข้อมูล : 8.60 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	30,397

ตัวอย่าง ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

คำอธิบายการกำหนดค่า : ชุดย่อย: unlabeled_final tokenized: True
ขนาดชุดข้อมูล : 177.89 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ใช่ (การตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)
แยก :

แยก	ตัวอย่าง
`'train'`	645,652
`'validation'`	10,000

ตัวอย่าง ( tfds.as_dataframe ):

paws_wiki จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ