trivia_qa

Descriptif :

TriviaqQA est un ensemble de données de compréhension en lecture contenant plus de 650 000 triplets de questions-réponses-preuves. TriviaqQA comprend 95 000 paires de questions-réponses rédigées par des passionnés de trivia et des documents de preuve recueillis de manière indépendante, six par question en moyenne, qui fournissent une supervision à distance de haute qualité pour répondre aux questions.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : http://nlp.cs.washington.edu/triviaqa/
Code source : tfds.datasets.trivia_qa.Builder
Versions :
- 1.1.0 (par défaut) : aucune note de version.
Structure des fonctionnalités :

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Dtype
	FonctionnalitésDict
répondre	FonctionnalitésDict
réponse/alias	Séquence (texte)	(Aucun,)	chaîne
réponse/match_wiki_entity_name	Texte		chaîne
réponse/normalized_aliases	Séquence (texte)	(Aucun,)	chaîne
réponse/normalized_matched_wiki_entity_name	Texte		chaîne
réponse/valeur_normalisée	Texte		chaîne
répondre/taper	Texte		chaîne
réponse/valeur	Texte		chaîne
pages_entités	Séquence
pages_entité/source_doc	Texte		chaîne
pages_entité/nom_fichier	Texte		chaîne
pages_entité/titre	Texte		chaîne
pages_entité/contexte_wiki	Texte		chaîne
question	Texte		chaîne
question_id	Texte		chaîne
question_source	Texte		chaîne
Résultats de recherche	Séquence
résultats_de_recherche/description	Texte		chaîne
résultats_recherche/nom_fichier	Texte		chaîne
search_results/classement	Tenseur		int32
résultats_de_recherche/contexte_de_recherche	Texte		chaîne
résultats_de_recherche/titre	Texte		chaîne
search_results/url	Texte		chaîne

Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuration par défaut)

Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement : 2.48 GiB
Taille du jeu de données : 14.99 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	17 210
`'train'`	138 384
`'validation'`	18 669

Exemples ( tfds.as_dataframe ):

trivia_qa/rc.nocontext

Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse.
Taille du téléchargement : 2.48 GiB
Taille du jeu de données : 196.84 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)
Fractionnements :

Diviser	Exemples
`'test'`	17 210
`'train'`	138 384
`'validation'`	18 669

Exemples ( tfds.as_dataframe ):

trivia_qa/non filtré

Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement : 3.07 GiB
Taille du jeu de données : 27.27 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	10 832
`'train'`	87 622
`'validation'`	11 313

Exemples ( tfds.as_dataframe ):

trivia_qa/unfiltered.nocontext

Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR.
Taille du téléchargement : 603.25 MiB
Taille du jeu de données : 119.78 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'test'`	10 832
`'train'`	87 622
`'validation'`	11 313

Exemples ( tfds.as_dataframe ):

Descriptif :

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : http://nlp.cs.washington.edu/triviaqa/
Code source : tfds.datasets.trivia_qa.Builder
Versions :
- 1.1.0 (par défaut) : aucune note de version.
Structure des fonctionnalités :

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Dtype
	FonctionnalitésDict
répondre	FonctionnalitésDict
réponse/alias	Séquence (texte)	(Aucun,)	chaîne
réponse/match_wiki_entity_name	Texte		chaîne
réponse/normalized_aliases	Séquence (texte)	(Aucun,)	chaîne
réponse/normalized_matched_wiki_entity_name	Texte		chaîne
réponse/valeur_normalisée	Texte		chaîne
répondre/taper	Texte		chaîne
réponse/valeur	Texte		chaîne
pages_entités	Séquence
pages_entité/source_doc	Texte		chaîne
pages_entité/nom_fichier	Texte		chaîne
pages_entité/titre	Texte		chaîne
pages_entité/contexte_wiki	Texte		chaîne
question	Texte		chaîne
question_id	Texte		chaîne
question_source	Texte		chaîne
Résultats de recherche	Séquence
résultats_de_recherche/description	Texte		chaîne
résultats_recherche/nom_fichier	Texte		chaîne
search_results/classement	Tenseur		int32
résultats_de_recherche/contexte_de_recherche	Texte		chaîne
résultats_de_recherche/titre	Texte		chaîne
search_results/url	Texte		chaîne

Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuration par défaut)

Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement : 2.48 GiB
Taille du jeu de données : 14.99 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	17 210
`'train'`	138 384
`'validation'`	18 669

Exemples ( tfds.as_dataframe ):

trivia_qa/rc.nocontext

Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse.
Taille du téléchargement : 2.48 GiB
Taille du jeu de données : 196.84 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)
Fractionnements :

Diviser	Exemples
`'test'`	17 210
`'train'`	138 384
`'validation'`	18 669

Exemples ( tfds.as_dataframe ):

trivia_qa/non filtré

Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement : 3.07 GiB
Taille du jeu de données : 27.27 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	10 832
`'train'`	87 622
`'validation'`	11 313

Exemples ( tfds.as_dataframe ):

trivia_qa/unfiltered.nocontext

Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR.
Taille du téléchargement : 603.25 MiB
Taille du jeu de données : 119.78 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'test'`	10 832
`'train'`	87 622
`'validation'`	11 313

Exemples ( tfds.as_dataframe ):