gomme_multi_rc

  • Descriptif :

Eraser Multi RC est un jeu de données pour les requêtes sur des passages multilignes, accompagné de réponses et d'une justification. Chaque exemple de cet ensemble de données comporte les 5 parties suivantes

  1. Un passage multiligne 2. Une question sur le passage 3. Une réponse à la question
  2. Un classement indiquant si la réponse est bonne ou mauvaise 5. Une explication justifiant le classement
Diviser Exemples
'test' 4 848
'train' 24 029
'validation' 3 214
  • Structure des fonctionnalités :
FeaturesDict({
    'evidences': Sequence(Text(shape=(), dtype=string)),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'query_and_answer': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
preuves Séquence (texte) (Aucun,) chaîne de caractères
étiquette Étiquette de classe int64
passage Texte chaîne de caractères
requête_et_réponse Texte chaîne de caractères
  • Citation :
@unpublished{eraser2019,
    title = {ERASER: A Benchmark to Evaluate Rationalized NLP Models},
    author = {Jay DeYoung and Sarthak Jain and Nazneen Fatema Rajani and Eric Lehman and Caiming Xiong and Richard Socher and Byron C. Wallace}
}
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {NAACL},
    year = {2018}
}