- Descrizione :
databricks-dolly-15k
è un set di dati open source di record che seguono le istruzioni utilizzato nell'addestramento di databricks/dolly-v2-12b generato da migliaia di dipendenti di Databricks in diverse categorie comportamentali delineate nel documento InstructGPT , tra cui brainstorming, classificazione, QA chiuso, generazione, estrazione di informazioni, QA aperto e riepilogo.
Questo set di dati può essere utilizzato per qualsiasi scopo, accademico o commerciale, secondo i termini della licenza Creative Commons Attribuzione - Condividi allo stesso modo 3.0 Unported .
Home page : https://github.com/databrickslabs/dolly
Codice sorgente :
tfds.datasets.databricks_dolly.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione download :
12.60 MiB
Dimensione del set di dati :
12.69 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'train' | 15.014 |
- Struttura delle caratteristiche :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
categoria | Testo | corda | ||
contesto | Testo | corda | ||
istruzioni | Testo | corda | ||
risposta | Testo | corda |
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :