- Descrição :
Grande conjunto de dados de revisão do Yelp. Este é um conjunto de dados para classificação de sentimentos binários. Fornecemos um conjunto de 560.000 avaliações altamente polarizadas de yelp para treinamento e 38.000 para teste. ORIGIN O conjunto de dados de avaliações do Yelp consiste em avaliações do Yelp. Ele é extraído dos dados do Yelp Dataset Challenge 2015. Para obter mais informações, consulte http://www.yelp.com/dataset
O conjunto de dados de polaridade de avaliações do Yelp foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. É usado pela primeira vez como referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Avanços em Sistemas de Processamento de Informação Neural 28 (NIPS 2015).
DESCRIÇÃO
O conjunto de dados de polaridade de revisões do Yelp é construído considerando as estrelas 1 e 2 negativas e 3 e 4 positivas. Para cada polaridade, 280.000 amostras de treinamento e 19.000 amostras de teste são coletadas aleatoriamente. No total, existem 560.000 amostras de treinamento e 38.000 amostras de teste. A polaridade negativa é classe 1 e positiva classe 2.
Os arquivos train.csv e test.csv contêm todas as amostras de treinamento como valores separados por vírgulas. Existem 2 colunas neles, correspondentes ao índice da aula (1 e 2) e ao texto da revisão. Os textos de revisão são escapados usando aspas duplas ("), e qualquer aspa dupla interna é escapada por 2 aspas duplas (""). Novas linhas são escapadas por uma barra invertida seguida de um caractere "n", que é " ".
Página inicial : https://course.fast.ai/datasets
Código -fonte:
tfds.text.YelpPolarityReviews
Versões :
-
0.2.0
(padrão): sem notas de versão.
-
Tamanho do download :
158.67 MiB
Tamanho do conjunto de dados :
435.14 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 38.000 |
'train' | 560.000 |
- Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
etiqueta | ClassLabel | int64 | ||
texto | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('text', 'label')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}