- Descripción :
databricks-dolly-15k
es un conjunto de datos de código abierto de registros de seguimiento de instrucciones utilizados en el entrenamiento de databricks/dolly-v2-12b que fue generado por miles de empleados de Databricks en varias de las categorías de comportamiento descritas en el documento de InstructGPT , incluida la lluvia de ideas, la clasificación, Control de calidad cerrado, generación, extracción de información, control de calidad abierto y resumen.
Este conjunto de datos se puede utilizar para cualquier fin, ya sea académico o comercial, según los términos de la licencia Creative Commons Attribution-ShareAlike 3.0 Unported .
Página de inicio : https://github.com/databrickslabs/dolly
Código fuente :
tfds.datasets.databricks_dolly.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
12.60 MiB
Tamaño del conjunto de datos :
12.69 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 15.014 |
- Estructura de características :
FeaturesDict({
'category': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'instruction': Text(shape=(), dtype=string),
'response': Text(shape=(), dtype=string),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
categoría | Texto | cadena | ||
contexto | Texto | cadena | ||
instrucción | Texto | cadena | ||
respuesta | Texto | cadena |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :