Huggingface חילקה TFDS ומספקת הרבה מערכי נתונים של טקסט. ראה כאן לתיעוד נוסף. לאחר מכן תוכל למצוא את הרשימה של כל מערכי הנתונים שניתן להשתמש בהם עם TFDS.
- ראשי תיבות_זיהוי
- ade_corpus_v2
- adv_glue
- adversarial_qa
- aeslc
- afrikaans_ner_corpus
- ag_news
- ai2_arc
- דיאלוג_אוויר
- ajgt_twitter_ar
- אלגרו_ביקורות
- אלוצין
- alt
- אמזון_קוטביות
- amazon_reviews_multi
- amazon_us_ביקורות
- amig_qa
- americas_nli
- האם אני
- amtl
- אנלי
- app_reviews
- aqua_rat
- אקוומוס
- ar_cov19
- ar_res_reviews
- סרקזם_אר
- ערבית_מיליארד_מילים
- ניב_פוזי_ערבי
- ערבית_קורפוס_דיבור
- arcd
- arsentd_lev
- אומנות
- arxiv_dataset
- ascent_kb
- aslg_pc12
- asnq
- נכס
- assin
- assin2
- אָטוֹמִי
- autshumato
- babi_qa
- בנקאות77
- bbaw_מצרי
- bbc_hindi_nli
- bc2gm_corpus
- שעועית
- הטוב ביותר 2009
- ביאנט
- תנ"ך_para
- פטנט_גדול
- ספסל גדול
- billsum
- bing_coronavirus_query_set
- biomrc
- ביוסים
- biwi_kinect_head_pose
- blbooks
- blbooksgenre
- שיחת_מיומנות_מזיגה
- צֶפֶּלִין
- קורפוס_הבלוג_כותבים
- bn_דיבור_שנאה
- bnl_newspapers
- קורפוס ספרים
- ספר קורפוס פתוח
- boolq
- bprec
- break_data
- brwac
- bsd_ja_en
- bswac
- ג3
- ג4
- cail2018
- caner
- שכמיות
- קָזִינוֹ
- עצמאות_קטלוניה
- חתולים_מול_כלבים
- cawac
- cbt
- cc100
- cc_news
- ccaligned_multilingual
- cdsc
- cdt
- cedr
- cfq
- chr_en
- cifar10
- cifar100
- בקירוב
- הערות_אזרחיות
- clickbait_news_bg
- קדחת_אקלים
- clinc_oos
- רֶמֶז
- cmrc2018
- cmu_hinglish_dog
- cnn_daymail
- coached_conv_pref
- שיח_גס
- קודה
- code_search_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- code_x_glue_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- code_x_glue_cc_code_refinement
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- שפה_נפוצה
- קול משותף
- commonsense_qa
- תחרות_מתמטיקה
- תחשוב מה
- קונספטנט5
- מושגית_12 מ'
- כתוביות_רעיוניות
- conll2000
- conll2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- צרכנים-פיננסים-תלונות
- conv_ai
- conv_ai_2
- conv_ai_3
- conv_questions
- קוקה
- כבל 19
- cornell_movie_dialog
- cos_e
- cosmos_qa
- דֶלְפֵּק
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_יפנית
- covost2
- cppe-5
- craigslist_bargains
- סריקה_דומיין
- crd3
- פשע_ו_עונש
- זוגות_עורבים
- קריפטוניט
- cs_מסעדות
- קואד
- דיאלוגים_סקרנות
- יומי_דיאלוג
- דני
- תגובות_פוליטיות_דניות
- חץ
- datacommons_factcheck
- dbpedia_14
- dbrd
- דיאלוג_או_לא_דיאלוג
- רזולוציה_מוגדרת_כינוי
- דנגי_פיליפיני
- dialog_re
- גילוי_דיפלומטיה
- הודעות_תגובת_אסון
- להתנתק
- תַגלִית
- disfl_qa
- doc2dial
- דוקרד
- דוקה
- חולם
- יְרִידָה
- duorc
- הולנדית_חברתית
- dyk
- e2e_nlg
- e2e_nlg_cleaned
- ecb
- ecthr_cases
- לחטוף
- ehealth_kd
- eitb_parcc
- דיאגרמות_עומס_חשמל
- eli5
- eli5_category
- elkarhizketak
- אמאה
- emo
- רֶגֶשׁ
- emotone_ar
- דיאלוגים_אמפתיים
- enriched_web_nlg
- enwik8
- eraser_multi_rc
- esnli
- eth_py150_open
- אֶתוֹס
- ett
- eu_regulatory_ir
- eurlex
- euronews
- europa_eac_tm
- europa_ecdc_tm
- europarl_bilingual
- event2Mind
- עדות_הסקת_טיפול
- בחינות
- factckbr
- חדשות_מזויפות_אנגלית
- fake_news_filipino
- פארסי_news
- אופנה_מניסט
- חום
- מעט_יחס
- בנק_ביטויים פיננסיים
- עדין יותר
- פלורס
- אֲרוּבָּה
- אוכל101
- fquad
- freebase_qa
- פער
- פְּנִינָה
- generated_reviews_enth
- generics_kb
- הכרה_גרמנית_ישויות_חוקיות
- גרמנית
- germeval_14
- giga_fren
- gigaword
- גלוקוז
- דֶבֶק
- gnad10
- ללכת_רגשות
- gooaq
- google_wellformed_query
- grail_qa
- קוד_גדול
- קוד_חוקי_יווני
- gsm8k
- סופר_אפוטרופוס
- זמן_גוטנברג
- הנס
- הנסארדים
- קָשֶׁה
- הַרמוֹן
- יש_חלק
- שונא_פוגע
- דיבור_שנאה18
- דיבור_שנאה_פיליפיני
- דברי_שטנה_פוגעניים
- שנאה_פל
- דיבור_שנאה_פורטוגזית
- הסבר שנאה
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- head_qa
- עובדת_בריאות
- Hebrew_projectbenyehuda
- עברית_סנטימנט
- עברית_העולם הזה
- hellaswag
- מבחן_hendrycks
- hind_encorp
- הינדי_שיח
- היפוקורפוס
- hkcancor
- hlgd
- hope_edi
- hotpot_qa
- לְרַחֵף
- hrenwac_para
- hrwac
- humicroedit
- hybrid_qa
- גילוי_חדשות_מפלגתיות
- iapp_wiki_qa_squad
- id_clickbait
- id_liputan6
- id_nergrit_corpus
- id_newspapers_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingual
- igbo_ner
- ilist
- imagenet-1k
- imagenet_sketch
- imdb
- imdb_urdu_reviews
- רושם
- indic_glue
- אינדונלי
- אינדונלו
- סקרן_ק"ג
- interpress_news_category_tr
- interpress_news_category_tr_lite
- irc_disentangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- סַכָּנָה
- jfleg
- jigsaw_toxicity_pred
- פאזל_הטיה_לא מכוונת
- jnlpba
- עיתונאים_שאלות
- kan_hope
- kannada_news
- kd_conv
- kde4
- קלם
- משימות_קילט
- kilt_wikipedia
- kinnews_kirnews
- קלוע
- kor_3i4k
- קור_שונא
- קור_נר
- kor_nli
- kor_nlu
- kor_qpair
- kor_sae
- קור_סרקזם
- labr
- לאמה
- למבדה
- קורפוס_ספרדי גדול
- laroseda
- lc_quad
- lccc
- lener_br
- lex_glue
- שַׁקרָן
- librispeech_asr
- librispeech_lm
- לְהַגבִּיל
- ליין
- ליניאוס
- liveqa
- lj_speech
- lm1b
- lst20
- מ_למה
- mac_morpho
- מחזאן
- מסחאנר
- Math_dataset
- math_qa
- matinf
- mbpp
- mc4
- mc_taco
- md_gender_bias
- mdd
- med_hop
- מֵדַלִיָה
- דיאלוג_רפואי
- זוגות_שאלות_רפואיות
- medmcqa
- menyo20k_mt
- meta_woz
- metashift
- metooma
- מטרק
- מיאם
- mkb
- מקקה
- mlqa
- mlsum
- מניסט
- מוקה
- monash_tsf
- מרוקו
- נימוקים_סרטים
- מרקה
- ms_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_vietnamese
- מוצין
- multi_booked
- multi_eurlex
- multi_news
- multi_nli
- multi_nli_mismatch
- multi_para_crawl
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- multidoc2dial
- multilingual_librispeech
- חברים משותפים
- mwsc
- חדשות_מיאנמר
- נרטיבקה
- narrativeqa_manual
- טבעי_שאלות
- ncbi_disease
- nchlt
- ncslgr
- nell
- חיפוש_קוד_עצבי
- פרשנות_חדשות
- קבוצת דיונים
- newsph
- newsph_nli
- עיתון
- newsqa
- חדר חדשות
- nkjp-ner
- nli_tr
- nlu_evaluation_data
- norec
- נורנה
- נורווגי_נר
- nq_open
- nsmc
- חוש_מספר
- ראש מספרי_מתוך
- אוקלר
- offcombr
- offenseval2020_tr
- offenseval_dravidian
- ofis_publik
- אוהם
- אולי
- אומפ
- onestop_אנגלית
- onestop_qa
- פתוח_כתוביות
- openai_humaneval
- openbookqa
- openslr
- openwebtext
- אופינוזה
- אופוס 100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- opus_rf
- opus_tedtalks
- opus_ubuntu
- opus_wikipedia
- opus_xhosanavy
- orange_sum
- אוסקר
- para_crawl
- para_pat
- parsinlu_הבנת_קריאה
- לַעֲבוֹר
- כפות
- כפות-X
- pec
- עמית_קרא
- אנשים_יומי_נר
- per_sent
- פרסי_נר
- עמוד 19
- php
- פיאף
- pib
- פיקה
- pn_summary
- שיר_סנטימנט
- polemo2
- poleval2019_בריונות ברשת
- poleval2019_mt
- polsum
- polyglot_ner
- prachathai67k
- פרגמבל
- proto_qa
- psc
- ptb_text_only
- פאבמד
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- קנגרו
- qanta
- qasc
- qasper
- qed
- qed_amara
- quac
- שליו
- מריבה
- קְוָרץ
- שליפה מהירה
- quora
- quoref
- גזע
- חיוג מחדש
- חשיבה_בג
- recipe_nlg
- reclor
- כובעים אדומים
- reddit_tifu
- להתרענן
- רויטרס 21578
- חידה_חוש
- ro_שלח
- ro_sts
- ro_sts_parallel
- רומן_אורדו
- רומן_אורדו_נאום_שנאה
- רונק
- חִבֵּל
- עגבניות רקובות
- דבק_סופר_רוסי
- rvl_cdip
- s2orc
- סמסום
- סנסקריט_קלאסי
- saudinewsnet
- sberquad
- sbu_captions
- לִסְרוֹק
- scb_mt_enth_2020
- scene_parse_150
- schema_guided_dstc8
- מדע
- sielo
- מאמרים_מדעיים
- scifact
- sciq
- זנב
- scitldr
- search_qa
- sede
- סלקה
- sem_eval_2010_task_8
- sem_eval_2014_task_1
- sem_eval_2018_task_1
- sem_eval_2020_task_11
- sent_comp
- senti_lex
- senti_ws
- סנטימנט140
- sepedi_ner
- sesotho_ner_corpus
- פעמים
- setswana_ner_corpus
- sharc
- sharc_modified
- חוֹלֶה
- סיליקון
- פשוט_שאלות_v2
- siswati_ner_corpus
- smartdata
- sms_spam
- snips_built_in_intents
- snli
- שלג_פשוט_יפני_קורפוס
- so_stacksample
- מסגרות_הטיות_חברתיות
- social_i_qa
- sofc_materials_articles
- sogou_news
- ספרדית_מיליארד_מילים
- spc
- מינים_800
- פקודות_דיבור
- עַכָּבִישׁ
- חוּלִיָה
- squad_adversarial
- squad_es
- squad_it
- squad_kor_v1
- squad_kor_v2
- squad_v1_pt
- squad_v2
- משמרות חוליות
- srwac
- sst
- מערכת סטריאו
- story_cloze
- stsb_mt_sv
- stsb_multi_mt
- זיהוי_שינוי_סגנון
- subjqa
- דבק מגע
- מְצוּיָן
- svhn
- הִתנוֹעֲעוּת
- סוואהילי
- news_swahili
- swda
- נר_רפואי_שבדי
- קורפוס_נר_שבדי
- swedish_reviews
- חיזוי_שיפוט_שוויצרי
- tab_fact
- tamilmixsentiment
- טנזיל
- טפאקו
- טשקלע
- משימות 1
- משימות 2
- taskmaster3
- tatoeba
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- telugu_books
- telugu_news
- tep_en_fa_para
- text2log
- textvqa
- תאילנדי_toxicity_tweet
- תאינר
- thaiqa_squad
- תאילנד
- הערימה
- את_ערימת_ספרים3
- the_pile_openwebtext2
- the_pile_stack_exchange
- tilde_model
- חיוג_זמן
- times_of_india_news_headlines
- timit_asr
- זעיר_שייקספיר
- tlc
- tmu_gfm_dataset
- לא
- אמר-br
- טוטו
- trec
- trivia_qa
- truthful_qa
- tsac
- ttc4900
- טוניס
- tuple_ie
- טורקי
- turkic_xwmt
- טורקית_סנטימנט_סרט
- turkish_ner
- turkish_product_reviews
- turkish_shrinked_ner
- turku_ner_corpus
- tweet_eval
- tweet_qa
- tweets_ar_en_parallel
- זיהוי_דיבור_שנאה_טוויטים
- twi_text_c3
- twi_wordsim353
- tydiqa
- ubuntu_dialogs_corpus
- udhr
- אמ005
- un_ga
- un_multi
- un_pc
- תלות_אוניברסלית
- מורפולוגיות_אוניברסליות
- urdu_fake_news
- urdu_sentiment_corpus
- vctk
- גנום_חזותי
- vivos
- web_nlg
- web_of_science
- web_questions
- weibo_ner
- wi_locness
- יותר_פנים
- wiki40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- ויקי_הופ
- wiki_lingua
- wiki_movies
- wiki_qa
- wiki_qa_ar
- wiki_snippets
- wiki_source
- wiki_split
- wiki_summary
- ויקיאן
- ויקיקורפוס
- wikihow
- ויקיפדיה
- wikisql
- שאלות wikitable
- ויקיטקסט
- wikitext_tl39
- wili_2018
- wino_bias
- winograd_wsc
- וינוגרנדה
- ויקה
- wisesight1000
- חוכמה_סנטימנט
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- wnut_17
- wongnai_reviews
- woz_dialogue
- wrbsc
- x_stance
- xcopa
- xcsr
- xed_en_fi
- xglue
- xnli
- xor_tydi_qa
- xquad
- xquad_r
- xsum
- xsum_factuality
- אקסטרים
- yahoo_answers_qa
- yahoo_answers_topics
- yelp_polarity
- yelp_review_full
- yoruba_bbc_topics
- yoruba_gv_ner
- yoruba_text_c3
- yoruba_wordsim353
- youtube_caption_corrections
- הִתלַהֲבוּת