- Descripción :
Conjunto de datos de Reddit, donde TIFU denota el nombre de subbreddit /r/tifu. Como se define en la publicación, el estilo "corto" usa el título como resumen y "largo" usa tldr como resumen.
Las características incluyen:
- documento: publicar texto sin tldr.
- tldr: línea tldr.
- título: título recortado sin tldr.
- ups: votos a favor.
- puntuación: puntuación.
- num_comments: número de comentarios.
upvote_ratio: proporción de votos a favor.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/ctr4si/MMN
Código fuente :
tfds.datasets.reddit_tifu.Builder
Versiones :
-
1.1.0
: Quitar documentos vacíos y cadenas de resumen. -
1.1.1
: agregue divisiones de entrenamiento, desarrollo y prueba (80/10/10) que se usan en PEGASUS ( https://arxiv.org/abs/1912.08777 ) en una configuración separada. Estos se crearon aleatoriamente usando la función de división tfds y se están publicando para garantizar que los resultados en Reddit Tifu Long sean reproducibles y comparables. También agregueid
a los puntos de datos. -
1.1.2
(predeterminado): Splits corregidos subidos.
-
Estructura de características :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
documentos | Texto | cadena | ||
identificación | Texto | cadena | ||
num_comentarios | Tensor | flotar32 | ||
puntaje | Tensor | flotar32 | ||
título | Texto | cadena | ||
tldr | Texto | cadena | ||
UPS | Tensor | flotar32 | ||
proporción de votos a favor | Tensor | flotar32 |
Figura ( tfds.show_examples ): no compatible.
Cita :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (configuración predeterminada)
Descripción de la configuración : uso del título como resumen.
Tamaño de la descarga :
639.54 MiB
Tamaño del conjunto de datos :
141.46 MiB
Auto-caché ( documentación ): Solo cuando
shuffle_files=False
(tren)Divisiones :
Separar | Ejemplos |
---|---|
'train' | 79,740 |
Claves supervisadas (Ver
as_supervised
):('documents', 'title')
Ejemplos ( tfds.as_dataframe ):
reddit_tifu/largo
Descripción de la configuración : uso de TLDR como resumen.
Tamaño de la descarga :
639.54 MiB
Tamaño del conjunto de datos :
93.10 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 42,139 |
Claves supervisadas (ver
as_supervised
doc ):('documents', 'tldr')
Ejemplos ( tfds.as_dataframe ):
reddit_tifu/long_split
Descripción de la configuración : uso de TLDR como resumen y retorno de tren/prueba/divisiones de desarrollo.
Tamaño de la descarga :
639.94 MiB
Tamaño del conjunto de datos :
93.10 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
Claves supervisadas (ver
as_supervised
doc ):('documents', 'tldr')
Ejemplos ( tfds.as_dataframe ):