paws_wiki

  • Açıklama :

Mevcut açıklama tanımlama veri kümeleri, açıklama olmaksızın yüksek sözcüksel örtüşmeye sahip cümle çiftlerinden yoksundur. Bu tür verilerle eğitilen modeller, New York'tan Florida'ya uçuşlar ve Florida'dan New York'a uçuşlar gibi çiftleri ayırt etmekte başarısız oluyor. Bu veri seti, açıklama tanımlama sorunu için modelleme yapısı, bağlam ve kelime sırası bilgilerinin önemini gösteren 108.463 insan etiketli ve 656 bin gürültülü etiketli çift içerir.

Daha fazla ayrıntı için, ekteki makaleye bakın: PAWS: https://arxiv.org/abs/1904.01130 adresindeki Word Scrambling'den Hasımları Açıklama

Bu külliyat, hem kelime değiştirme hem de geri çeviri yöntemlerinden üretilen çiftleri içeren Wikipedia sayfalarından oluşturulan çiftleri içerir. Tüm çiftlerin hem başka kelimelerle ifade etme hem de akıcılık konusunda insan yargıları vardır ve bunlar, Eğit/Geliştir/Test bölümlerine ayrılmıştır.

Tüm dosyalar dört sütunlu tsv biçimindedir:

  1. id : Her çift için benzersiz bir kimlik.
  2. sentence1 : İlk cümle.
  3. sentence2 : İkinci cümle.
  4. (noisy_)label : Her çift için (Gürültülü) etiket.

Her etiketin iki olası değeri vardır: 0, çiftin farklı anlamlara sahip olduğunu, 1 ise çiftin bir açıklama olduğunu gösterir.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
etiket SınıfEtiketi int64
cümle1 Metin sicim
cümle2 Metin sicim
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Alt küme: label_final belirteçleştirilmiş: True

  • Veri kümesi boyutu : 17.96 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_final_raw

  • Yapılandırma açıklaması : Altküme: etiketli_son belirteçleştirilmiş: Yanlış

  • Veri kümesi boyutu : 17.57 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 8.000
'train' 49.401
'validation' 8.000

paws_wiki/labeled_swap_tokenized

  • Yapılandırma açıklaması : Altküme: label_swap tokenized: True

  • Veri kümesi boyutu : 8.79 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 30.397

paws_wiki/labeled_swap_raw

  • Yapılandırma açıklaması : Alt küme: label_swap tokenized: False

  • Veri kümesi boyutu : 8.60 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'train' 30.397

paws_wiki/unlabeled_final_tokenized

  • Yapılandırma açıklaması : Alt küme: unlabeled_final tokenized: True

  • Veri kümesi boyutu : 177.89 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet (doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • bölmeler :

Bölmek örnekler
'train' 645.652
'validation' 10.000