- Descrizione :
TriviaqQA è un set di dati sulla comprensione della lettura contenente oltre 650.000 triple di domande-risposte-prove. TriviaqQA include 95.000 coppie di domande-risposte create da appassionati di curiosità e documenti di prova raccolti in modo indipendente, sei in media per domanda, che forniscono una supervisione a distanza di alta qualità per rispondere alle domande.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://nlp.cs.washington.edu/triviaqa/
Codice sorgente :
tfds.datasets.trivia_qa.Builder
Versioni :
-
1.1.0
(impostazione predefinita): nessuna nota di rilascio.
-
Struttura delle caratteristiche :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
risposta | CaratteristicheDict | |||
risposta/alias | Sequenza(Testo) | (Nessuno,) | corda | |
risposta/nome_entità_wiki_corrispondente | Testo | corda | ||
risposta/alias_normalizzati | Sequenza(Testo) | (Nessuno,) | corda | |
risposta/normalized_matched_wiki_entity_name | Testo | corda | ||
risposta/valore_normalizzato | Testo | corda | ||
rispondi/digita | Testo | corda | ||
risposta/valore | Testo | corda | ||
entità_pages | Sequenza | |||
entità_pages/doc_source | Testo | corda | ||
pagine_entità/nomefile | Testo | corda | ||
pagine_entità/titolo | Testo | corda | ||
pagine_entità/contesto_wiki | Testo | corda | ||
domanda | Testo | corda | ||
domanda_id | Testo | corda | ||
fonte_domanda | Testo | corda | ||
risultati di ricerca | Sequenza | |||
risultati_ricerca/descrizione | Testo | corda | ||
risultati_ricerca/nomefile | Testo | corda | ||
risultati_ricerca/classifica | Tensore | int32 | ||
risultati_ricerca/contesto_ricerca | Testo | corda | ||
risultati_ricerca/titolo | Testo | corda | ||
risultati_ricerca/url | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configurazione predefinita)
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
2.48 GiB
Dimensione del set di dati :
14.99 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta.
Dimensione del download :
2.48 GiB
Dimensione del set di dati:
196.84 MiB
Cache automatica ( documentazione ): Sì (test, convalida), solo quando
shuffle_files=False
(train)Divisioni :
Diviso | Esempi |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/non filtrato
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
3.07 GiB
Dimensione del set di dati:
27.27 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR.
Dimensione del download :
603.25 MiB
Dimensione del set di dati:
119.78 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):
- Descrizione :
TriviaqQA è un set di dati sulla comprensione della lettura contenente oltre 650.000 triple di domande-risposte-prove. TriviaqQA include 95.000 coppie di domande-risposte create da appassionati di curiosità e documenti di prova raccolti in modo indipendente, sei in media per domanda, che forniscono una supervisione a distanza di alta qualità per rispondere alle domande.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://nlp.cs.washington.edu/triviaqa/
Codice sorgente :
tfds.datasets.trivia_qa.Builder
Versioni :
-
1.1.0
(impostazione predefinita): nessuna nota di rilascio.
-
Struttura delle caratteristiche :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
risposta | CaratteristicheDict | |||
risposta/alias | Sequenza(Testo) | (Nessuno,) | corda | |
risposta/nome_entità_wiki_corrispondente | Testo | corda | ||
risposta/alias_normalizzati | Sequenza(Testo) | (Nessuno,) | corda | |
risposta/normalized_matched_wiki_entity_name | Testo | corda | ||
risposta/valore_normalizzato | Testo | corda | ||
rispondi/digita | Testo | corda | ||
risposta/valore | Testo | corda | ||
entità_pages | Sequenza | |||
entità_pages/doc_source | Testo | corda | ||
pagine_entità/nomefile | Testo | corda | ||
pagine_entità/titolo | Testo | corda | ||
pagine_entità/contesto_wiki | Testo | corda | ||
domanda | Testo | corda | ||
domanda_id | Testo | corda | ||
fonte_domanda | Testo | corda | ||
risultati di ricerca | Sequenza | |||
risultati_ricerca/descrizione | Testo | corda | ||
risultati_ricerca/nomefile | Testo | corda | ||
risultati_ricerca/classifica | Tensore | int32 | ||
risultati_ricerca/contesto_ricerca | Testo | corda | ||
risultati_ricerca/titolo | Testo | corda | ||
risultati_ricerca/url | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configurazione predefinita)
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
2.48 GiB
Dimensione del set di dati :
14.99 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Descrizione della configurazione : coppie domanda-risposta in cui tutti i documenti per una determinata domanda contengono la stringa o le stringhe di risposta.
Dimensione del download :
2.48 GiB
Dimensione del set di dati:
196.84 MiB
Cache automatica ( documentazione ): Sì (test, convalida), solo quando
shuffle_files=False
(train)Divisioni :
Diviso | Esempi |
---|---|
'test' | 17.210 |
'train' | 138.384 |
'validation' | 18.669 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/non filtrato
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR. Include contesto da Wikipedia e risultati di ricerca.
Dimensione del download :
3.07 GiB
Dimensione del set di dati:
27.27 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Descrizione della configurazione : 110.000 coppie domanda-risposta per QA di dominio aperto in cui non tutti i documenti per una determinata domanda contengono le stringhe di risposta. Ciò rende il set di dati non filtrato più appropriato per il QA in stile IR.
Dimensione del download :
603.25 MiB
Dimensione del set di dati:
119.78 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 10.832 |
'train' | 87.622 |
'validation' | 11.313 |
- Esempi ( tfds.as_dataframe ):