- Açıklama :
DART (Metin Oluşturma Veri Kaydı), üçlü kümedeki tüm gerçekleri kapsayan cümle açıklamalarıyla açıklamalı RDF varlık-ilişkisini içerir. DART, WikiTableQuestions, WikiSQL, WebNLG ve Cleaned E2E gibi mevcut veri kümeleri kullanılarak oluşturulmuştur. WikiTableQuestions ve WikiSQL'den alınan tablolar özne-yüklem-nesne üçlülerine dönüştürüldü ve metin ek açıklamaları çoğunlukla MTurk'ten toplandı. E2E'deki anlamlı temsiller de üçlüye dönüştürülerek açıklamaları kullanılmış, dönüştürülemeyenler çıkarılmıştır.
E2E ve WebNLG'nin veri kümesi bölmeleri korunur ve WikiTableQuestions ve WikiSQL için Jaccard benzerliği, benzer tabloları aynı kümede tutmak için kullanılır (train/dev/tes).
Bu veri seti, standartlaştırılmış bir tablo formatına göre oluşturulmuştur.
Ana Sayfa : https://github.com/Yale-LILY/dart
Kaynak kodu :
tfds.structured.dart.Dart
sürümler :
-
0.1.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
249.71 MiB
Veri kümesi boyutu :
38.83 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 12.552 |
'train' | 62.659 |
'validation' | 6.980 |
- Özellik yapısı :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
giriş metni | ÖzelliklerDict | |||
girdi_metni/tablo | Sekans | |||
girdi_metni/tablo/sütun_başlığı | tensör | sicim | ||
girdi_metni/tablo/içerik | tensör | sicim | ||
girdi_metni/tablo/satır_numarası | tensör | int16 | ||
hedef_metin | tensör | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):('input_text', 'target_text')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}