wiki_auto

  • Açıklama :

WikiAuto, cümle basitleştirme sistemlerini eğitmek için bir kaynak olarak İngilizce Vikipedi ve Basit İngilizce Vikipedi'den bir dizi hizalanmış cümle sağlar. Yazarlar önce Basit İngilizce Vikipedi'nin bir alt kümesindeki cümleler ile İngilizce Vikipedi'deki karşılık gelen sürümleri arasındaki bir dizi manuel hizalamayı kitle kaynaklı olarak sağladı (bu, manual yapılandırmaya karşılık gelir), ardından bu hizalamaları tahmin etmesi için bir sinirsel CRF sistemi eğitti. Eğitilen model daha sonra Basit İngilizce Vikipedi'deki diğer makalelere İngilizce eşdeğeri ile uygulandı ve daha büyük bir hizalanmış cümleler külliyatı oluşturdu (buradaki auto , auto_acl , auto_full_no_split ve auto_full_with_split yapılandırmalarına karşılık gelir).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Kalabalık çalışanları tarafından hizalanmış 10.000 Wikipedia cümle çifti kümesi.

  • İndirme boyutu : 53.47 MiB

  • Veri kümesi boyutu : 76.87 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'dev' 73.249
'test' 118.074
  • Özellik yapısı :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
GLEU puanı tensör şamandıra64
hizalama_etiketi SınıfEtiketi int64
normal_sentence Metin sicim
normal_sentence_id Metin sicim
basit_sentence Metin sicim
basit_sentence_id Metin sicim

wiki_auto/auto_acl

  • Yapılandırma açıklaması : ACL2020 sistemini eğitmek için hizalanmış cümle çiftleri.

  • İndirme boyutu : 112.60 MiB

  • Veri kümesi boyutu : 138.83 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False (dolu) olduğunda

  • bölmeler :

Bölmek örnekler
'full' 488.332
  • Özellik yapısı :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
normal_sentence Metin sicim
basit_sentence Metin sicim

wiki_auto/auto_full_no_split

  • Yapılandırma açıklaması : Cümle bölme olmadan tüm cümle çiftleri otomatik olarak hizalanır.

  • İndirme boyutu : 135.02 MiB

  • Veri kümesi boyutu : 166.78 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False (dolu) olduğunda

  • bölmeler :

Bölmek örnekler
'full' 591.994
  • Özellik yapısı :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
normal_sentence Metin sicim
basit_sentence Metin sicim

wiki_auto/auto_full_with_split

  • Yapılandırma açıklaması : Tümü otomatik olarak hizalanan cümle çiftleri, cümle bölme özelliğine sahiptir.

  • İndirme boyutu : 115.09 MiB

  • Veri kümesi boyutu : 141.20 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Yalnızca shuffle_files=False (dolu) olduğunda

  • bölmeler :

Bölmek örnekler
'full' 483.801
  • Özellik yapısı :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
normal_sentence Metin sicim
basit_sentence Metin sicim

wiki_otomatik/otomatik

  • Yapılandırma açıklaması : Otomatik olarak hizalanan geniş bir cümle çiftleri kümesi.

  • İndirme boyutu : 2.01 GiB

  • Veri kümesi boyutu : 1.76 GiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'part_1' 125.059
'part_2' 13.036
  • Özellik yapısı :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
örnek_id Metin sicim
normal ÖzelliklerDict
normal/normal_article_content Sekans
normal/normal_article_content/normal_sentence Metin sicim
normal/normal_article_content/normal_sentence_id Metin sicim
normal/normal_article_id tensör int32
normal/normal_article_title Metin sicim
normal/normal_article_url Metin sicim
paragraf_hizalama Sekans
paragraf_hizalama/normal_paragraph_id Metin sicim
paragraf_hizalama/simple_paragraph_id Metin sicim
cümle_hizalama Sekans
cümle_align/normal_sentence_id Metin sicim
cümle_alignment/simple_sentence_id Metin sicim
basit ÖzelliklerDict
basit/basit_article_content Sekans
basit/simple_article_content/simple_sentence Metin sicim
basit/simple_article_content/simple_sentence_id Metin sicim
basit/basit_article_id tensör int32
basit/basit_article_title Metin sicim
basit/basit_article_url Metin sicim