- Описание :
Sentiment140 позволяет узнать отношение к бренду, продукту или теме в Twitter.
Данные представляют собой CSV-файл с удаленными смайликами. Формат файла данных имеет 6 полей:
- полярность твита (0 = отрицательный, 2 = нейтральный, 4 = положительный)
- идентификатор твита (2087)
- дата твита (сб, 16 мая, 23:58:44 UTC 2009 г.)
- запрос (lyx). Если запроса нет, то это значение равно NO_QUERY.
- пользователь, который написал в Твиттере (robotickilldozr)
- текст твита (Ликс классная)
Для получения дополнительной информации см. статью «Классификация настроений в Твиттере с дистанционным наблюдением» по адресу https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf .
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://help.sentiment140.com/home
Исходный код :
tfds.datasets.sentiment140.Builder
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
77.59 MiB
Размер набора данных :
305.13 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 498 |
'train' | 1 600 000 |
- Структура функции :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'polarity': int32,
'query': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'user': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
датировать | Текст | нить | ||
полярность | Тензор | int32 | ||
запрос | Текст | нить | ||
текст | Текст | нить | ||
пользователь | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'polarity')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@ONLINE {Sentiment140,
author = "Go, Alec and Bhayani, Richa and Huang, Lei",
title = "Twitter Sentiment Classification using Distant Supervision",
year = "2009",
url = "http://help.sentiment140.com/home"
}