Huggingface rozwidlał TFDS i udostępnia wiele tekstowych zestawów danych. Zobacz tutaj, aby uzyskać więcej dokumentacji. Następnie możesz znaleźć listę wszystkich zestawów danych, które mogą być używane z TFDS.
- acronym_identification
- ade_corpus_v2
- adv_klej
- adversarial_qa
- aeslc
- afrikaans_ner_corpus
- ag_news
- ai2_arc
- air_dialog
- ajgt_twitter_ar
- allegro_recenzje
- alocyna
- Alt
- amazon_polarity
- amazon_reviews_multi
- amazon_us_reviews
- ambig_qa
- ameryka_nli
- Jestem
- amtl
- anli
- app_recenzje
- wodny_szczur
- akwamuse
- ar_cov19
- ar_res_reviews
- ar_sarkazm
- arabskie_miliard_słów
- arabski_pos_dialect
- arab_speech_corpus
- arcd
- arsentd_lev
- sztuka
- arxiv_dataset
- wzniesienie_kb
- aslg_pc12
- asnq
- zaleta
- zabójca
- zabójca2
- atomowy
- autshumato
- babi_qa
- bankowość77
- bbaw_egipski
- bbc_hindi_nli
- bc2gm_corpus
- fasolki
- najlepszy2009
- Bianecki
- biblia_para
- duży_patent
- duża ławka
- suma rachunków
- bing_coronavirus_query_set
- biomrc
- biosy
- biwi_kinect_head_pose
- księgi rachunkowe
- blbooksgenre
- blended_skill_talk
- sterowiec
- blog_authorship_corpus
- bn_nienawiść
- bnl_newspapers
- księga
- księga otwarta
- boolq
- bprec
- przerwa_dane
- brwać
- bsd_ja_en
- bswac
- c3
- c4
- łapać2018
- kaner
- peleryny
- kasyno
- katalonia_niepodległość
- koty_vs_psy
- cawac
- cbt
- cc100
- cc_news
- ccaligned_multilingual
- cdsc
- cdt
- cedru
- cfq
- chr_en
- cifar10
- cifar100
- około
- cywilne_komentarze
- clickbait_news_bg
- gorączka_klimatu
- clinc_oos
- Wskazówka
- cmrc2018
- cmu_hinglish_dog
- cnn_dailymail
- coached_conv_pref
- gruba_dyskurs
- koda
- code_search_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- code_x_glue_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- code_x_glue_cc_code_refinement
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- wspólny język
- wspólny_głos
- zdrowy rozsądek_qa
- konkurencja_matematyka
- kompromituje co
- sieć koncepcyjna5
- koncepcyjny_12m
- conceptual_captions
- conll2000
- zbierz2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- reklamacje-konsumenckie-finanse
- conv_ai
- conv_ai_2
- conv_ai_3
- conv_questions
- koka
- przewód19
- cornell_movie_dialog
- wyciągać się
- kosmos_qa
- licznik
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_japanese
- covost2
- cppe-5
- craigslist_bargains
- crawl_domain
- crd3
- crime_and_punish
- pary_wron
- kryptonit
- cs_restauracje
- Cuad
- ciekawość_dialogi
- Daily_dialog
- Duńczyk
- danish_political_comments
- strzałka
- datacommons_factcheck
- dbpedia_14
- dbrd
- deal_or_no_dialog
- określone_zaimek_rozdzielczość
- dengue_filipino
- dialog_re
- dyplomacja_wykrywanie
- katastrofa_response_wiadomości
- wyzbyć się
- odkrycie
- disfl_qa
- doc2dial
- udokumentowane
- doqa
- śnić
- upuszczać
- duorc
- holenderski_social
- dyk
- e2e_nlg
- e2e_nlg_cleaned
- ecb
- ecthr_cases
- eduge
- ezdrowie_kd
- eitb_parcc
- diagramy_obciążenia_elektrycznego
- eli5
- eli5_category
- elkarhizketak
- emea
- emo
- emocja
- emotone_ar
- empatyczne_dialogi
- wzbogacony_web_nlg
- enwik8
- gumka_multi_rc
- esnli
- eth_py150_open
- etos
- ett
- eu_regulatory_ir
- eurlex
- euronews
- europa_eac_tm
- europa_ecdc_tm
- europarl_dwujęzyczny
- event2Mind
- dowody_wnioskowania_leczenia
- egzaminy
- fakty
- fake_news_english
- fake_news_filipiński
- farsi_news
- fashion_mnist
- gorączka
- kilka_rel
- Financial_phrasebank
- lepiej
- Flores
- przewód kominowy
- jedzenie101
- drużyna
- freebase_qa
- luka
- klejnot
- generate_reviews_enth
- generyczne_kb
- german_legal_entity_recognition
- Germański
- germeval_14
- giga_fren
- gigasłowo
- glukoza
- klej
- gnad10
- go_emocje
- gooaq
- google_wellformed_query
- grail_qa
- wielki_kod
- grecki_legalny_kod
- gsm8k
- opiekun_autorstwa
- gutenberg_time
- Hans
- hansardowie
- ciężko
- harem
- ma_część
- nienawiść_obraźliwa
- hate_speech18
- hate_speech_filipino
- hate_speech_offensive
- hate_speech_pl
- hate_speech_portuguese
- hej wyjaśniać
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- head_qa
- fakt_zdrowia
- hebrew_projectbenyehuda
- hebrajski_sentiment
- hebrajski_ten_świat
- hellaswag
- hendrycks_test
- hind_encorp
- hindi_discourse
- hipokorpus
- hkcancor
- hgd
- nadzieja_edi
- hotpot_qa
- unosić się
- hrenwac_para
- hrwac
- humicroedit
- hybryda_qa
- hyperpartisan_news_detection
- iapp_wiki_qa_squad
- id_przynęta na kliknięcia
- id_liputan6
- id_nergrit_corpus
- id_newspapers_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingual
- igbo_ner
- ilist
- imagenet-1k
- imagenet_sketch
- imdb
- imdb_urdu_reviews
- imponować
- indic_glue
- indonezyjski
- indonlu
- ciekawski_qg
- interpress_news_category_tr
- interpress_news_category_tr_lite
- irc_disentangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- niebezpieczeństwo
- jfleg
- jigsaw_toxicity_pred
- jigsaw_unintended_bias
- jnlpba
- dziennikarze_pytania
- kan_nadzieja
- kannada_news
- kd_conv
- kde4
- kelm
- kilt_tasks
- kilt_wikipedia
- kinnews_kirnews
- klue
- kor_3i4k
- kor_nienawiść
- kor_ner
- kor_nli
- kor_nlu
- kor_qpair
- kor_sae
- kor_sarkazm
- labr
- lama
- lambada
- duży_hiszpański_korpus
- laroseda
- lc_quad
- lccc
- lener_br
- lex_klej
- kłamca
- librispeech_asr
- librispeech_lm
- limit
- lince
- linneusz
- liveqa
- lj_speech
- lm1b
- Ist20
- m_lama
- mac_morfo
- makhzan
- masakhaner
- math_dataset
- math_qa
- matinf
- mbpp
- mc4
- mc_taco
- md_gender_bias
- mdd
- med_hop
- medal
- okno_medyczne
- medical_questions_pairs
- medmcqa
- menyo20k_mt
- meta_woz
- metaprzesunięcie
- metooma
- metrec
- miam
- mkb
- mkqa
- mlqa
- mlsuma
- mnista
- mokka
- monash_tsf
- maroko
- uzasadnienie_filmu
- mrqa
- ms_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_wietnamski
- muchocyna
- wiele_zarezerwowanych
- multi_eurlex
- multi_news
- multi_nli
- multi_nli_mismatch
- indeksowanie_wielu_parametrów
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- multidoc2dial
- wielojęzyczna_librispeech
- wspólni przyjaciele
- mwsc
- birma_news
- narracja
- narracjaqa_manual
- naturalne_pytania
- ncbi_disease
- nchlt
- ncslgr
- nell
- neural_code_search
- news_commentary
- grupa dyskusyjna
- gazeta
- newsph_nli
- newspop
- newsqa
- redakcja
- nkjp-ner
- nli_tr
- nlu_evaluation_data
- noreč
- norne
- norweski_ner
- nq_open
- nsmc
- numer_sens
- numeric_fused_head
- oklar
- poza kombinacją
- przestępstwo2020_tr
- przestępstwo_dravidian
- ofis_publik
- ohsumed
- ollie
- omp
- onestop_polski
- onestop_qa
- open_subtitles
- openai_humaneval
- openbookqa
- openlr
- otwarty tekst internetowy
- opinoza
- opus100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- opus_rf
- opus_tedtalks
- opus_ubuntu
- opus_wikipedia
- opus_xhosanavy
- orange_sum
- Oscar
- para_crawl
- para_pat
- parsinlu_reading_comprehension
- podawać
- łapy
- łapy-x
- peč
- peer_read
- peoples_day_ner
- per_wysłany
- perski_ner
- strona 19
- php
- piaf
- pib
- piqa
- pn_summary
- poem_sentiment
- polemo2
- poleval2019_cyberbullying
- poleval2019_mt
- polsum
- poliglota_ner
- prachathai67k
- pragmaval
- proto_qa
- psc
- ptb_text_only
- pubmed
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- kangur
- kwant
- qasc
- kasper
- co było do okazania
- qed_amara
- quac
- Przepiórka
- kłótnia
- kwarc
- szybkie losowanie
- Kwora
- quoref
- Wyścig
- ponowne wybieranie
- uzasadnienie_bg
- przepis_nlg
- powtórka
- red_caps
- reddit_tifu
- odświeżony
- reuters21578
- zagadkowy sens
- ro_sent
- ro_sts
- ro_sts_parallel
- roman_urdu
- roman_urdu_hate_speech
- ronec
- liny
- zgniłe pomidory
- rosyjski_super_klej
- rvl_cdip
- s2orc
- samsum
- sanskryt_klasyczny
- saudinewsnet
- sberquad
- sbu_captions
- skanowanie
- scb_mt_enth_2020
- scene_parse_150
- schema_guided_dstc8
- scicite
- scielo
- publikacje naukowe
- scifact
- sciq
- scitail
- scitldr
- search_qa
- sede
- selqa
- sem_eval_2010_task_8
- sem_eval_2014_task_1
- sem_eval_2018_task_1
- sem_eval_2020_task_11
- send_comp
- senti_lex
- senti_ws
- sentyment140
- sepedi_ner
- sesotho_ner_corpus
- okresy
- setwana_ner_corpus
- sharc
- sharc_modified
- chory
- silikon
- proste_pytania_v2
- siswati_ner_corpus
- inteligentne dane
- sms_spam
- snips_built_in_intents
- snli
- snow_simplified_japanese_corpus
- so_stacksample
- social_bias_frames
- social_i_qa
- sofc_materials_articles
- sogou_news
- spanish_billion_words
- spc
- gatunek_800
- mowa_komendy
- pająk
- Drużyna
- oddział_adversarial
- oddział_es
- oddział_it
- skład_kor_v1
- skład_kor_v2
- oddział_v1_pt
- skład_v2
- zmiana składu
- srwac
- sst
- stereoset
- story_cloze
- stsb_mt_sv
- stsb_multi_mt
- style_change_detekcja
- subjqa
- Super klej
- wspaniały
- svh
- łup
- suahili
- swahili_news
- swda
- swedish_medical_ner
- swedish_ner_corpus
- szwedzkie_recenzje
- swiss_judgment_prediction
- tab_fakt
- tamilmieszany sentyment
- tanzyl
- tapaco
- taszkeela
- kierownik zadań1
- kierownik zadań2
- kierownik zadań3
- tatoeba
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- telugu_książki
- telugu_news
- tep_en_fa_para
- text2log
- tekstvqa
- tajska_toksyczność_tweet
- tajnik
- thaiqa_squad
- tajski
- Słup
- stos_książek3
- the_pile_openwebtext2
- the_pile_stack_exchange
- tylda_model
- Time_dial
- times_of_india_news_headlines
- timit_asr
- kruchy_szekspir
- tlc
- tmu_gfm_dataset
- tne
- powiedział-br
- totto
- trec
- ciekawostki_qa
- trueful_qa
- tsac
- ttc4900
- tunizi
- krotka_ie
- Turek
- turkic_xwmt
- turkish_movie_sentiment
- turecki_ner
- turecki_product_reviews
- turecki_skurczony_ner
- turku_ner_corpus
- tweet_eval
- tweet_qa
- tweets_ar_en_parallel
- tweets_hate_speech_detection
- twi_text_c3
- twi_wordsim353
- tydiqa
- ubuntu_dialogs_corpus
- udhr
- um005
- un_ga
- un_multi
- un_pc
- uniwersalne_zależności
- uniwersalne_morfologie
- urdu_fake_news
- urdu_sentiment_corpus
- vctk
- wizualny_genom
- żywy
- web_nlg
- Sieć nauki
- web_questions
- weibo_ner
- wi_locness
- szersza_twarz
- wiki40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- wiki_hop
- wiki_lingua
- wiki_filmy
- wiki_qa
- wiki_qa_ar
- wiki_snippets
- źródło_wiki
- wiki_split
- wiki_summary
- wikianna
- Wikikorpus
- wikihow
- Wikipedia
- Wikisql
- wikitablepytania
- wikitekst
- wikitext_tl39
- wili_2018
- wino_bias
- winograd_wsc
- winogrande
- wiqa
- mądrość1000
- mądry_sentiment
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- orzech_17
- wongnai_recenzje
- woz_dialog
- wrbsc
- x_stance
- xcopa
- xcsr
- xed_en_fi
- xklej
- xnli
- xor_tydi_qa
- xquad
- xquad_r
- xsum
- xsum_faktualizacja
- ekstremalny
- yahoo_answers_qa
- yahoo_answers_topics
- yelp_polarity
- yelp_review_full
- joruba_bbc_topics
- joruba_gv_ner
- joruba_text_c3
- joruba_wordsim353
- youtube_caption_korekty
- skórka owocowa