yelp_polarity_reviews

  • Descrizione :

Ampio set di dati sulle recensioni di Yelp. Questo è un set di dati per la classificazione del sentimento binario. Forniamo una serie di 560.000 recensioni di yelp altamente polari per la formazione e 38.000 per i test. ORIGINE Il set di dati delle recensioni di Yelp è costituito dalle recensioni di Yelp. Viene estratto dai dati di Yelp Dataset Challenge 2015. Per ulteriori informazioni, fare riferimento a http://www.yelp.com/dataset

Il set di dati sulla polarità delle revisioni di Yelp è stato costruito da Xiang Zhang (xiang.zhang@nyu.edu) dal set di dati di cui sopra. Viene utilizzato per la prima volta come punto di riferimento per la classificazione del testo nel seguente documento: Xiang Zhang, Junbo Zhao, Yann LeCun. Reti convoluzionali a livello di carattere per la classificazione del testo. Progressi nei sistemi di elaborazione delle informazioni neurali 28 (NIPS 2015).

DESCRIZIONE

Il set di dati sulla polarità delle revisioni di Yelp è costruito considerando le stelle 1 e 2 negative e 3 e 4 positive. Per ogni polarità vengono prelevati casualmente 280.000 campioni di addestramento e 19.000 campioni di test. In totale ci sono 560.000 campioni di addestramento e 38.000 campioni di test. La polarità negativa è di classe 1 e quella positiva di classe 2.

I file train.csv e test.csv contengono tutti gli esempi di addestramento come valori separati da virgola. Ci sono 2 colonne in esse, corrispondenti all'indice della classe (1 e 2) e al testo della recensione. I testi delle revisioni sono preceduti da virgolette doppie ("), e le virgolette doppie interne sono precedute da 2 virgolette doppie (""). Le nuove righe sono precedute da una barra rovesciata seguita da un carattere "n", ovvero " ".

Diviso Esempi
'test' 38.000
'train' 560.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
etichetta ClassLabel int64
testo Testo corda
  • Citazione :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}