- Descripción :
Sentiment140 le permite descubrir el sentimiento de una marca, producto o tema en Twitter.
Los datos son un CSV con los emoticones eliminados. El formato de archivo de datos tiene 6 campos:
- la polaridad del tweet (0 = negativo, 2 = neutral, 4 = positivo)
- la identificación del tweet (2087)
- la fecha del tweet (sábado 16 de mayo 23:58:44 UTC 2009)
- la consulta (lyx). Si no hay consulta, entonces este valor es NO_QUERY.
- el usuario que tuiteó (robotickilldozr)
- el texto del tweet (Lyx mola)
Para obtener más información, consulte el artículo Clasificación de sentimiento de Twitter con supervisión a distancia en https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
Documentación adicional : Explore en Papers With Code
Página de inicio: http://help.sentiment140.com/home
Código fuente :
tfds.datasets.sentiment140.Builder
Versiones :
-
1.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
77.59 MiB
Tamaño del conjunto de datos :
305.13 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 498 |
'train' | 1,600,000 |
- Estructura de características :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'polarity': int32,
'query': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'user': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
fecha | Texto | cadena | ||
polaridad | Tensor | int32 | ||
consulta | Texto | cadena | ||
texto | Texto | cadena | ||
usuario | Texto | cadena |
Teclas supervisadas (Ver
as_supervised
):('text', 'polarity')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@ONLINE {Sentiment140,
author = "Go, Alec and Bhayani, Richa and Huang, Lei",
title = "Twitter Sentiment Classification using Distant Supervision",
year = "2009",
url = "http://help.sentiment140.com/home"
}