trivia_qa

  • Descriptif :

TriviaqQA est un ensemble de données de compréhension en lecture contenant plus de 650 000 triplets de questions-réponses-preuves. TriviaqQA comprend 95 000 paires de questions-réponses rédigées par des passionnés de trivia et des documents de preuve recueillis de manière indépendante, six par question en moyenne, qui fournissent une supervision à distance de haute qualité pour répondre aux questions.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
répondre FonctionnalitésDict
réponse/alias Séquence (texte) (Aucun,) chaîne
réponse/match_wiki_entity_name Texte chaîne
réponse/normalized_aliases Séquence (texte) (Aucun,) chaîne
réponse/normalized_matched_wiki_entity_name Texte chaîne
réponse/valeur_normalisée Texte chaîne
répondre/taper Texte chaîne
réponse/valeur Texte chaîne
pages_entités Séquence
pages_entité/source_doc Texte chaîne
pages_entité/nom_fichier Texte chaîne
pages_entité/titre Texte chaîne
pages_entité/contexte_wiki Texte chaîne
question Texte chaîne
question_id Texte chaîne
question_source Texte chaîne
Résultats de recherche Séquence
résultats_de_recherche/description Texte chaîne
résultats_recherche/nom_fichier Texte chaîne
search_results/classement Tenseur int32
résultats_de_recherche/contexte_de_recherche Texte chaîne
résultats_de_recherche/titre Texte chaîne
search_results/url Texte chaîne
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuration par défaut)

  • Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse. Inclut le contexte de Wikipedia et les résultats de recherche.

  • Taille du téléchargement : 2.48 GiB

  • Taille du jeu de données : 14.99 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/rc.nocontext

  • Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse.

  • Taille du téléchargement : 2.48 GiB

  • Taille du jeu de données : 196.84 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/non filtré

  • Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR. Inclut le contexte de Wikipedia et les résultats de recherche.

  • Taille du téléchargement : 3.07 GiB

  • Taille du jeu de données : 27.27 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 10 832
'train' 87 622
'validation' 11 313

trivia_qa/unfiltered.nocontext

  • Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR.

  • Taille du téléchargement : 603.25 MiB

  • Taille du jeu de données : 119.78 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 10 832
'train' 87 622
'validation' 11 313
,

  • Descriptif :

TriviaqQA est un ensemble de données de compréhension en lecture contenant plus de 650 000 triplets de questions-réponses-preuves. TriviaqQA comprend 95 000 paires de questions-réponses rédigées par des passionnés de trivia et des documents de preuve recueillis de manière indépendante, six par question en moyenne, qui fournissent une supervision à distance de haute qualité pour répondre aux questions.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
répondre FonctionnalitésDict
réponse/alias Séquence (texte) (Aucun,) chaîne
réponse/match_wiki_entity_name Texte chaîne
réponse/normalized_aliases Séquence (texte) (Aucun,) chaîne
réponse/normalized_matched_wiki_entity_name Texte chaîne
réponse/valeur_normalisée Texte chaîne
répondre/taper Texte chaîne
réponse/valeur Texte chaîne
pages_entités Séquence
pages_entité/source_doc Texte chaîne
pages_entité/nom_fichier Texte chaîne
pages_entité/titre Texte chaîne
pages_entité/contexte_wiki Texte chaîne
question Texte chaîne
question_id Texte chaîne
question_source Texte chaîne
Résultats de recherche Séquence
résultats_de_recherche/description Texte chaîne
résultats_recherche/nom_fichier Texte chaîne
search_results/classement Tenseur int32
résultats_de_recherche/contexte_de_recherche Texte chaîne
résultats_de_recherche/titre Texte chaîne
search_results/url Texte chaîne
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuration par défaut)

  • Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse. Inclut le contexte de Wikipedia et les résultats de recherche.

  • Taille du téléchargement : 2.48 GiB

  • Taille du jeu de données : 14.99 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/rc.nocontext

  • Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse.

  • Taille du téléchargement : 2.48 GiB

  • Taille du jeu de données : 196.84 MiB

  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'test' 17 210
'train' 138 384
'validation' 18 669

trivia_qa/non filtré

  • Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR. Inclut le contexte de Wikipedia et les résultats de recherche.

  • Taille du téléchargement : 3.07 GiB

  • Taille du jeu de données : 27.27 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 10 832
'train' 87 622
'validation' 11 313

trivia_qa/unfiltered.nocontext

  • Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR.

  • Taille du téléchargement : 603.25 MiB

  • Taille du jeu de données : 119.78 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 10 832
'train' 87 622
'validation' 11 313