wikihow

  • Descriptif :

WikiHow est un nouvel ensemble de données à grande échelle utilisant la base de connaissances en ligne WikiHow ( http://www.wikihow.com/ ).

Il y a deux fonctionnalités : - texte : wikihow répond aux textes. - titre : lignes en gras comme résumé.

Il existe deux versions distinctes : - toutes : constituées de la concaténation de tous les paragraphes comme les articles et des lignes en gras comme les résumés de référence. - sep : composé de chaque paragraphe et de son résumé.

Téléchargez "wikihowAll.csv" et "wikihowSep.csv" depuis https://github.com/mahnazkoupaee/WikiHow-Dataset et placez-les dans le dossier manuel https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validation/test splits sont fournis par les auteurs. Le prétraitement est appliqué pour supprimer les articles courts (longueur du résumé < 0,75 longueur de l'article) et nettoyer les virgules supplémentaires.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (configuration par défaut)

  • Description de la configuration : utilisez la concaténation de tous les paragraphes comme articles et les lignes en gras comme résumés de référence

  • Taille du jeu de données : 531.56 MiB

  • Fractionnements :

Diviser Exemples
'test' 5 577
'train' 157 252
'validation' 5 599
  • Structure des fonctionnalités :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
gros titre Texte chaîne de caractères
texte Texte chaîne de caractères
Titre Texte chaîne de caractères

wikihow/sep

  • Description de la configuration : utilisez chaque paragraphe et son résumé.

  • Taille du jeu de données : 1.07 GiB

  • Fractionnements :

Diviser Exemples
'test' 37 800
'train' 1 060 732
'validation' 37 932
  • Structure des fonctionnalités :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
gros titre Texte chaîne de caractères
Aperçu Texte chaîne de caractères
sectionLabel Texte chaîne de caractères
texte Texte chaîne de caractères
Titre Texte chaîne de caractères