- opis :
Duży zbiór danych recenzji Yelp. To jest zestaw danych do binarnej klasyfikacji tonacji. Zapewniamy zestaw 560 000 bardzo polarnych recenzji na potrzeby szkolenia i 38 000 do testowania. POCHODZENIE Zbiór danych recenzji Yelp składa się z recenzji z Yelp. Został on wyodrębniony z danych Yelp Dataset Challenge 2015. Więcej informacji można znaleźć na stronie http://www.yelp.com/dataset
Zbiór danych o biegunowości opinii Yelp jest tworzony przez Xiang Zhanga (xiang.zhang@nyu.edu) na podstawie powyższego zbioru danych. Po raz pierwszy zastosowano go jako wzorzec klasyfikacji tekstu w następującym artykule: Xiang Zhang, Junbo Zhao, Yann LeCun. Sieci konwolucyjne na poziomie znaków do klasyfikacji tekstu. Postępy w neuronowych systemach przetwarzania informacji 28 (NIPS 2015).
OPIS
Zbiór danych o biegunowości recenzji Yelp jest tworzony na podstawie gwiazdek 1 i 2 ujemnych oraz gwiazdek 3 i 4 dodatnich. Dla każdej polaryzacji pobiera się losowo 280 000 próbek treningowych i 19 000 próbek testowych. W sumie jest 560 000 próbek szkoleniowych i 38 000 próbek testowych. Ujemna polaryzacja to klasa 1, a dodatnia klasa 2.
Pliki train.csv i test.csv zawierają wszystkie próbki szkoleniowe jako wartości rozdzielane przecinkami. Znajdują się w nich 2 kolumny odpowiadające indeksowi zajęć (1 i 2) oraz tekstowi recenzji. Teksty recenzji są poprzedzone podwójnym cudzysłowem ("), a każdy wewnętrzny podwójny cudzysłów jest poprzedzony dwoma podwójnymi cudzysłowami (""). Nowe wiersze są poprzedzone ukośnikiem odwrotnym, po którym następuje znak "n", czyli " ".
Strona główna : https://course.fast.ai/datasets
Kod źródłowy :
tfds.text.YelpPolarityReviews
Wersje :
-
0.2.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
158.67 MiB
Rozmiar zestawu danych :
435.14 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 38 000 |
'train' | 560 000 |
- Struktura funkcji :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
etykieta | Etykieta klasy | int64 | ||
tekst | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('text', 'label')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}