- Descriptif :
TriviaqQA est un ensemble de données de compréhension en lecture contenant plus de 650 000 triplets de questions-réponses-preuves. TriviaqQA comprend 95 000 paires de questions-réponses rédigées par des passionnés de trivia et des documents de preuve recueillis de manière indépendante, six par question en moyenne, qui fournissent une supervision à distance de haute qualité pour répondre aux questions.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : http://nlp.cs.washington.edu/triviaqa/
Code source :
tfds.datasets.trivia_qa.Builder
Versions :
-
1.1.0
(par défaut) : aucune note de version.
-
Structure des fonctionnalités :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
répondre | FonctionnalitésDict | |||
réponse/alias | Séquence (texte) | (Aucun,) | chaîne | |
réponse/match_wiki_entity_name | Texte | chaîne | ||
réponse/normalized_aliases | Séquence (texte) | (Aucun,) | chaîne | |
réponse/normalized_matched_wiki_entity_name | Texte | chaîne | ||
réponse/valeur_normalisée | Texte | chaîne | ||
répondre/taper | Texte | chaîne | ||
réponse/valeur | Texte | chaîne | ||
pages_entités | Séquence | |||
pages_entité/source_doc | Texte | chaîne | ||
pages_entité/nom_fichier | Texte | chaîne | ||
pages_entité/titre | Texte | chaîne | ||
pages_entité/contexte_wiki | Texte | chaîne | ||
question | Texte | chaîne | ||
question_id | Texte | chaîne | ||
question_source | Texte | chaîne | ||
Résultats de recherche | Séquence | |||
résultats_de_recherche/description | Texte | chaîne | ||
résultats_recherche/nom_fichier | Texte | chaîne | ||
search_results/classement | Tenseur | int32 | ||
résultats_de_recherche/contexte_de_recherche | Texte | chaîne | ||
résultats_de_recherche/titre | Texte | chaîne | ||
search_results/url | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuration par défaut)
Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement :
2.48 GiB
Taille du jeu de données :
14.99 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Exemples ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse.
Taille du téléchargement :
2.48 GiB
Taille du jeu de données :
196.84 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Exemples ( tfds.as_dataframe ):
trivia_qa/non filtré
Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement :
3.07 GiB
Taille du jeu de données :
27.27 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Exemples ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR.
Taille du téléchargement :
603.25 MiB
Taille du jeu de données :
119.78 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Exemples ( tfds.as_dataframe ):
- Descriptif :
TriviaqQA est un ensemble de données de compréhension en lecture contenant plus de 650 000 triplets de questions-réponses-preuves. TriviaqQA comprend 95 000 paires de questions-réponses rédigées par des passionnés de trivia et des documents de preuve recueillis de manière indépendante, six par question en moyenne, qui fournissent une supervision à distance de haute qualité pour répondre aux questions.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : http://nlp.cs.washington.edu/triviaqa/
Code source :
tfds.datasets.trivia_qa.Builder
Versions :
-
1.1.0
(par défaut) : aucune note de version.
-
Structure des fonctionnalités :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
répondre | FonctionnalitésDict | |||
réponse/alias | Séquence (texte) | (Aucun,) | chaîne | |
réponse/match_wiki_entity_name | Texte | chaîne | ||
réponse/normalized_aliases | Séquence (texte) | (Aucun,) | chaîne | |
réponse/normalized_matched_wiki_entity_name | Texte | chaîne | ||
réponse/valeur_normalisée | Texte | chaîne | ||
répondre/taper | Texte | chaîne | ||
réponse/valeur | Texte | chaîne | ||
pages_entités | Séquence | |||
pages_entité/source_doc | Texte | chaîne | ||
pages_entité/nom_fichier | Texte | chaîne | ||
pages_entité/titre | Texte | chaîne | ||
pages_entité/contexte_wiki | Texte | chaîne | ||
question | Texte | chaîne | ||
question_id | Texte | chaîne | ||
question_source | Texte | chaîne | ||
Résultats de recherche | Séquence | |||
résultats_de_recherche/description | Texte | chaîne | ||
résultats_recherche/nom_fichier | Texte | chaîne | ||
search_results/classement | Tenseur | int32 | ||
résultats_de_recherche/contexte_de_recherche | Texte | chaîne | ||
résultats_de_recherche/titre | Texte | chaîne | ||
search_results/url | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuration par défaut)
Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement :
2.48 GiB
Taille du jeu de données :
14.99 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Exemples ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Description de la configuration : paires question-réponse où tous les documents pour une question donnée contiennent la ou les chaînes de réponse.
Taille du téléchargement :
2.48 GiB
Taille du jeu de données :
196.84 MiB
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Exemples ( tfds.as_dataframe ):
trivia_qa/non filtré
Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR. Inclut le contexte de Wikipedia et les résultats de recherche.
Taille du téléchargement :
3.07 GiB
Taille du jeu de données :
27.27 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Exemples ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Description de la configuration : 110 000 paires question-réponse pour l'AQ du domaine ouvert où tous les documents pour une question donnée ne contiennent pas la ou les chaînes de réponse. Cela rend l'ensemble de données non filtré plus approprié pour l'assurance qualité de type IR.
Taille du téléchargement :
603.25 MiB
Taille du jeu de données :
119.78 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Exemples ( tfds.as_dataframe ):