- Descrizione :
Ampio set di dati sulle recensioni di Yelp. Questo è un set di dati per la classificazione del sentimento binario. Forniamo una serie di 560.000 recensioni di yelp altamente polari per la formazione e 38.000 per i test. ORIGINE Il set di dati delle recensioni di Yelp è costituito dalle recensioni di Yelp. Viene estratto dai dati di Yelp Dataset Challenge 2015. Per ulteriori informazioni, fare riferimento a http://www.yelp.com/dataset
Il set di dati sulla polarità delle revisioni di Yelp è stato costruito da Xiang Zhang (xiang.zhang@nyu.edu) dal set di dati di cui sopra. Viene utilizzato per la prima volta come punto di riferimento per la classificazione del testo nel seguente documento: Xiang Zhang, Junbo Zhao, Yann LeCun. Reti convoluzionali a livello di carattere per la classificazione del testo. Progressi nei sistemi di elaborazione delle informazioni neurali 28 (NIPS 2015).
DESCRIZIONE
Il set di dati sulla polarità delle revisioni di Yelp è costruito considerando le stelle 1 e 2 negative e 3 e 4 positive. Per ogni polarità vengono prelevati casualmente 280.000 campioni di addestramento e 19.000 campioni di test. In totale ci sono 560.000 campioni di addestramento e 38.000 campioni di test. La polarità negativa è di classe 1 e quella positiva di classe 2.
I file train.csv e test.csv contengono tutti gli esempi di addestramento come valori separati da virgola. Ci sono 2 colonne in esse, corrispondenti all'indice della classe (1 e 2) e al testo della recensione. I testi delle revisioni sono preceduti da virgolette doppie ("), e le virgolette doppie interne sono precedute da 2 virgolette doppie (""). Le nuove righe sono precedute da una barra rovesciata seguita da un carattere "n", ovvero " ".
Home page : https://course.fast.ai/datasets
Codice sorgente :
tfds.text.YelpPolarityReviews
Versioni :
-
0.2.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
158.67 MiB
Dimensione del set di dati:
435.14 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 38.000 |
'train' | 560.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
etichetta | ClassLabel | int64 | ||
testo | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('text', 'label')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}