Huggingface ha biforcato TFDS e fornisce molti set di dati di testo. Vedi qui per ulteriore documentazione. Successivamente puoi trovare l'elenco di tutti i set di dati che possono essere utilizzati con TFDS.
- acronimo_identificazione
- ade_corpus_v2
- adv_colla
- contraddittorio_qa
- aeslc
- afrikaans_ner_corpus
- ag_notizie
- ai2_arco
- aria_dialogo
- ajgt_twitter_ar
- allegro_recensioni
- allocino
- alt
- amazon_polarity
- amazon_reviews_multi
- amazon_us_reviews
- ambig_qa
- americhe_nli
- ami
- amtl
- anli
- recensioni_app
- aqua_rat
- acquamus
- ar_cov19
- ar_res_reviews
- ar_sarcasmo
- arabo_miliardo_parole
- arabo_pos_dialetto
- corpo_del_discorso_arabo
- arco
- asentd_lev
- arte
- arxiv_dataset
- salita_kb
- aslg_pc12
- asnq
- bene
- asino
- assino2
- atomico
- autsumato
- babi_qa
- bancario77
- bbaw_egiziano
- bbc_hindi_nli
- bc2gm_corpus
- fagioli
- migliore 2009
- bianet
- bibbia_par
- grande_brevetto
- panca grande
- fattura
- bing_coronavirus_query_set
- biomrc
- biossi
- biwi_kinect_head_pose
- libri
- genere di libri
- blended_skill_talk
- dirigibile
- blog_authorship_corpus
- bn_hate_discorso
- bnl_giornali
- libro di libri
- bookcorpusoopen
- boolq
- bprec
- break_data
- brava
- bsd_ja_en
- bswac
- c3
- c4
- cail2018
- caner
- mantelle
- casinò
- catalogna_indipendenza
- gatti_contro_cani
- caca
- cbt
- cc100
- cc_notizie
- ccaligned_multilingua
- cdc
- cdt
- cedro
- cfr
- chr_en
- cifar10
- cifar100
- circa
- commenti_civili
- clickbait_news_bg
- febbre_climatica
- clin_oos
- traccia
- cmrc2018
- cmu_inglish_dog
- cnn_dailymail
- coached_conv_pref
- discorso_grossolano
- coda
- codice_ricerca_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- code_x_glue_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- code_x_glue_cc_code_refinement
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- linguaggio comune
- voce_comune
- buon senso_qa
- concorrenza_matematica
- incomprensibile
- conceptnet5
- concettuale_12m
- didascalie_concettuali
- conll2000
- conll2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- reclami-finanza-consumatori
- conv_ai
- conv_ai_2
- conv_ai_3
- domande_conv
- coqa
- cordone19
- cornell_movie_dialog
- cos_e
- cosmo_qa
- contatore
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_giapponese
- covost2
- cppe-5
- craigslist_bargains
- crawl_domain
- crd3
- crimine_e_punizione
- corvi_coppie
- criptonite
- cs_ristoranti
- cuad
- curiosità_dialog
- dialogo_giornaliero
- danese
- danish_political_comments
- dardo
- datacommons_factcheck
- dbpedia_14
- dbrd
- deal_or_no_dialog
- risoluzione_pronome_definita
- dengue_filippino
- dialog_re
- diplomacy_detection
- messaggi_risposta_disastro
- disconnettere
- scoperta
- disfl_qa
- doc2dial
- doc
- doqa
- sognare
- far cadere
- duorc
- olandese_sociale
- dik
- e2e_nlg
- e2e_nlg_cleaned
- ecc
- ecthr_cases
- eduge
- ehealth_kd
- eitb_parcc
- diagrammi di_carico_elettricità
- eli5
- eli5_categoria
- elkarhizketak
- emea
- emo
- emozione
- emotone_ar
- dialoghi_empatici
- arricchito_web_nlg
- enwik8
- gomma_multi_rc
- esnli
- eth_py150_open
- ethos
- ecc
- eu_regulatory_ir
- eurlex
- euronews
- europa_eac_tm
- europa_ecdc_tm
- europarl_bilingue
- evento2Mente
- evidenza_inferenza_trattamento
- esami
- fattobr
- fake_news_english
- fake_news_filippino
- farsi_notizie
- fashion_mnist
- febbre
- pochi_rel
- banca_frase_finanziaria
- più fine
- fiori
- canna fumaria
- cibo101
- fquad
- freebase_qa
- spacco
- gemma
- generato_recensioni_enth
- generici_kb
- german_legal_entity_recognition
- germanico
- germeval_14
- giga_fren
- gigaparola
- glucosio
- colla
- gnad10
- go_emotions
- gooaq
- google_wellformed_query
- grail_qa
- ottimo_codice
- codice_legale_greco
- gsm8k
- tutore_paternità
- tempo di gutenberg
- hans
- mani
- difficile
- harem
- ha_parte
- odio_offensivo
- hate_discorso18
- hate_speech_filippino
- hate_speech_offensive
- hate_speech_pl
- hate_speech_portoghese
- hatexplain
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- testa_qa
- salute_fatto
- hebrew_projectbenyehuda
- ebraico_sentimento
- ebraico_questo_mondo
- diavolo
- hendrycks_test
- hind_encorp
- hindi_discourse
- ippocorpo
- hkcancor
- hlgd
- speranza_edi
- hotpot_qa
- librarsi
- hrenwac_par
- hrwac
- Humicroedit
- ibrido_qa
- hyperpartisan_news_detection
- iapp_wiki_qa_squad
- id_clickbait
- id_liputan6
- id_nergrit_corpus
- id_giornali_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingua
- igbo_ner
- ilista
- imagenet-1k
- imagenet_sketch
- imdb
- imdb_urdu_reviews
- impr
- indica_colla
- indonli
- indonlu
- curioso_qg
- interpress_news_categoria_tr
- interpress_news_category_tr_lite
- irc_distangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- pericolo
- jfleg
- puzzle_toxicity_pred
- jigsaw_unintend_bias
- jnlpba
- giornalisti_domande
- kan_hope
- kannada_news
- kd_conv
- kde4
- fuco
- kilt_tasks
- kilt_wikipedia
- kinnews_kirnews
- klue
- kor_3i4k
- kor_hate
- kor_ner
- kor_nli
- kor_nlu
- kor_qpair
- kor_sae
- kor_sarcasmo
- labr
- lama
- lambada
- corpo_grande_spagnolo
- laroseda
- lc_quad
- lcc
- lener_br
- lex_colla
- bugiardo
- librispeech_asr
- librispeech_lm
- limite
- lince
- linneo
- liveqa
- lj_discorso
- lm1b
- lst20
- m_lama
- mac_morfo
- makhzan
- mascheratore
- math_dataset
- math_qa
- mattutino
- mbpp
- mc4
- mc_taco
- md_genere_bias
- mdd
- med_hop
- medaglia
- dialogo_medico
- domande_mediche_coppie
- medmcqa
- menyo20k_mt
- meta_woz
- metaspostamento
- metoma
- metro
- miam
- mkb
- mkqa
- mlqa
- ml
- mnist
- moka
- monash_tsf
- Marocco
- film_razionali
- Mrqa
- ms_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_vietnamita
- muchocine
- multi_prenotato
- multi_eurlex
- multi_notizie
- multi_nli
- multi_nli_mismatch
- multi_para_crawl
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- multidoc2dial
- multilingue_librispeech
- amici in comune
- mwsc
- myanmar_news
- narrativaqa
- narrativeqa_manual
- domande_naturali
- ncbi_malattia
- nclt
- ncslgr
- nell
- codice_neurale_ricerca
- notizia_commento
- newsgroup
- notiziario
- newsph_nli
- notiziario
- newsqa
- redazione
- nkjp-ner
- nli_tr
- nlu_evaluation_data
- norec
- norne
- norvegese_ner
- nq_open
- nsmc
- senso_numerico
- numeric_fuse_head
- oclar
- offcombr
- offensiveval2020_tr
- offesa_dravidica
- ofis_publik
- osumò
- olli
- omp
- onestop_english
- onestop_qa
- open_subtitles
- openai_humaneval
- openbookqa
- openlr
- testo web aperto
- opinosi
- opus100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- opus_rf
- opus_tedtalks
- opus_ubuntu
- opus_wikipedia
- opus_xhosanavy
- somma_arancione
- oscar
- para_crawl
- para_pat
- parsinlu_reading_comprension
- passaggio
- zampe
- zampe-x
- pec
- peer_read
- gente_giornaliera
- per_inviato
- persiano_ner
- pag19
- php
- piaf
- pib
- piqa
- pn_summary
- poesia_sentimento
- polemo2
- poleval2019_cyberbullismo
- poleval2019_mt
- polso
- poliglotta
- prachathai67k
- pragmevale
- proto_qa
- psc
- ptb_text_only
- pubblicato
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- canguro
- qanta
- qasc
- qasper
- qed
- qed_amara
- quac
- Quaglia
- litigare
- quarzo
- veloce bozza
- quota
- quoref
- gara
- ri_componi
- ragionamento_bg
- ricetta_nlg
- reclamare
- berretti_rossi
- rosso
- reddit_tifu
- rinfrescare
- migration21578
- indovinello_senso
- ro_sent
- ro_sts
- ro_sts_parallelo
- romano_urdu
- roman_urdu_hate_speech
- ronec
- corde
- pomodori marci
- russian_super_colla
- rvl_cdip
- s2orc
- Samsum
- sanscrito_classico
- saudinewsnet
- sberquad
- sbu_captions
- scansione
- scb_mt_enth_2020
- analisi_scena_150
- schema_guided_dstc8
- scicite
- scielo
- articoli_scientifici
- scifact
- sciq
- scitaglio
- scitldr
- ricerca_qa
- sede
- selqa
- sem_eval_2010_compito_8
- sem_eval_2014_compito_1
- sem_eval_2018_compito_1
- sem_eval_2020_compito_11
- inviato_comp
- senti_lex
- senti_ws
- sentimento140
- sepedi_ner
- sesotho_ner_corpus
- volte
- setwana_ner_corpus
- sharc
- sharc_modificato
- malato
- silicone
- domande_semplici_v2
- siswati_ner_corpus
- dati intelligenti
- sms_spam
- snips_built_in_intents
- snl
- snow_simplified_japanese_corpus
- così_campione
- social_bias_frames
- social_i_qa
- sofc_materiali_articoli
- sogou_news
- spagnolo_miliardo_parole
- sp
- specie_800
- discorso_comandi
- ragno
- squadra
- squadra_avversario
- squadre_es
- squad_it
- squad_kor_v1
- squad_kor_v2
- squadra_v1_pt
- squadra_v2
- turni di squadra
- srwac
- sst
- stereoset
- story_cloze
- stsb_mt_sv
- stsb_multi_mt
- style_change_detection
- subjqa
- super colla
- superbo
- svhn
- malloppo, festone
- swahili
- swahili_news
- swda
- medico_svedese
- corpus_nera_svedese
- recensioni_svedesi
- swiss_judgment_prediction
- tab_fact
- tamilmixsentimento
- tanzile
- tapaco
- tashkeela
- caposquadra1
- caposquadra2
- caposquadra3
- tatoeba
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- telugu_books
- telugu_news
- tep_en_fa_para
- testo2log
- testovqa
- thai_toxicity_tweet
- tailandese
- thaiqa_squadra
- thaisum
- la_pila
- the_pile_books3
- the_pile_openwebtext2
- il_pile_stack_exchange
- tilde_modello
- time_dial
- times_of_india_news_headlines
- timit_asr
- minuscolo_shakespeare
- tlc
- tmu_gfm_set di dati
- tne
- detto-br
- totto
- trec
- curiosità_qa
- veritiero_qa
- tsac
- ttc4900
- tunizi
- tupla_ie
- turco
- turco_xwmt
- turkish_movie_sentiment
- turco_ner
- turkish_product_reviews
- turco_ridotto_ner
- turku_ner_corpus
- tweet_eval
- tweet_qa
- tweets_ar_en_parallel
- tweets_hate_speech_detection
- twi_text_c3
- twi_wordsim353
- tydiqa
- ubuntu_dialogs_corpus
- udr
- um005
- un_ga
- un_multi
- un_pc
- dipendenze_universali
- morfologie_universali
- urdu_fake_news
- urdu_sentiment_corpus
- vctk
- genoma_visivo
- vivi
- web_nlg
- web_of_science
- domande_web
- weibo_ner
- wi_locness
- viso_ampio
- wiki40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- wiki_hop
- wiki_lingua
- wiki_movies
- wiki_qa
- wiki_qa_ar
- wiki_snippet
- wiki_source
- wiki_split
- wiki_summary
- wikiann
- wikicorpus
- wikihow
- wikipedia
- wikisql
- domande wikitable
- wikitesto
- wikitext_tl39
- wili_2018
- wino_bias
- winograd_wsc
- vinogrande
- wiqa
- wisesight1000
- wisesight_sentiment
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- nocciola_17
- wongnai_recensioni
- woz_dialogue
- wrbsc
- x_stance
- xcopa
- xcsr
- xed_en_fi
- xcolla
- xnli
- xor_tydi_qa
- xquad
- xquad_r
- xsum
- xsum_factuality
- estremo
- yahoo_answers_qa
- yahoo_answers_topics
- yelp_polarity
- yelp_review_full
- yoruba_bbc_topics
- yoruba_gv_ner
- yoruba_text_c3
- yoruba_wordsim353
- youtube_caption_corrections
- scorza