Huggingface a forké TFDS et fournit de nombreux ensembles de données textuelles. Voir ici pour plus de documentation. Ensuite, vous pouvez trouver la liste de tous les jeux de données pouvant être utilisés avec TFDS.
- acronyme_identification
- ade_corpus_v2
- adv_glue
- contradictoire_qa
- aeslc
- afrikaans_ner_corpus
- ag_news
- ai2_arc
- air_dialogue
- ajgt_twitter_ar
- allegro_reviews
- attribuer
- autre
- amazon_polarité
- amazon_reviews_multi
- amazon_us_reviews
- ambig_qa
- americas_nli
- suis-je
- amttl
- anli
- app_reviews
- aqua_rat
- aqua-amusement
- ar_cov19
- ar_res_reviews
- ar_sarcasme
- arabic_billion_words
- dialecte_arabe_pos
- arabic_speech_corpus
- arcd
- arsentd_lev
- art
- arxiv_dataset
- ascend_kb
- aslg_pc12
- asnq
- actif
- assassin
- assin2
- atomique
- autshumato
- babi_qa
- bancaire77
- bbw_egyptien
- bbc_hindi_nli
- bc2gm_corpus
- des haricots
- meilleur2009
- bianet
- bible_para
- grand_brevet
- grand banc
- facture
- bing_coronavirus_query_set
- biomrc
- biosses
- biwi_kinect_head_pose
- blbooks
- blbooksgenre
- blended_skill_talk
- dirigeable
- blog_authorship_corpus
- bn_hate_speech
- bnl_newspapers
- corpus de livres
- bookcorpusopen
- boolq
- bprec
- break_data
- brwac
- bsd_ja_fr
- bswac
- c3
- c4
- cail2018
- caner
- capes
- casino
- catalogne_indépendance
- chats_vs_chiens
- cawac
- cbt
- cc100
- cc_news
- ccaligned_multilingual
- CDSC
- cdt
- cèdre
- cfq
- chr_fr
- cifar10
- cifar100
- environ
- commentaires_civils
- clickbait_news_bg
- fièvre_climatique
- clinique_oos
- indice
- cmrc2018
- cmu_hinglish_dog
- cnn_dailymail
- coached_conv_pref
- discours_grossier
- coda
- code_search_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- code_x_glue_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- code_x_glue_cc_code_refinement
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- langue commune
- voix_commune
- bon sens_qa
- competition_math
- devinez quoi
- conceptnet5
- conceptuel_12m
- légendes_conceptuelles
- conll2000
- conll2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- plaintes-finances-consommateurs
- conv_ai
- conv_ai_2
- conv_ai_3
- conv_questions
- coqa
- cordon19
- cornell_movie_dialog
- cos_e
- cosmos_qa
- compteur
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_japonais
- covost2
- cpp-5
- craigslist_bargains
- crawl_domain
- crd3
- crime_and_punish
- paires_de_corbeaux
- cryptonite
- cs_restaurants
- cuad
- curiosité_dialogs
- daily_dialog
- Danois
- commentaires_politiques_danois
- dard
- datacommons_factcheck
- dbpedia_14
- dbrd
- deal_or_no_dialog
- résolution_du_pronom_défini
- dengue_philippine
- dialog_re
- diplomatie_detection
- messages_de_réponse_catastrophe
- déconfiner
- Découverte
- disfl_qa
- doc2dial
- documenté
- doqa
- rêver
- goutte
- duorc
- néerlandais_social
- gouine
- e2e_nlg
- e2e_nlg_cleaned
- BCE
- ecthr_cases
- éduquer
- ehealth_kd
- eitb_parcc
- diagrammes_de_charge_de_l'électricité
- éli5
- eli5_category
- elkarhizketak
- emea
- émo
- émotion
- émotone_ar
- empathique_dialogues
- enriched_web_nlg
- enwik8
- gomme_multi_rc
- esnli
- eth_py150_open
- ethos
- ett
- eu_regulatory_ir
- eurlex
- euronews
- europa_eac_tm
- europa_ecdc_tm
- europarl_bilingue
- event2Mind
- preuve_inférer_traitement
- examens
- factckbr
- fake_news_anglais
- fake_news_philippin
- farsi_news
- fashion_mnist
- fièvre
- peu_rel
- banque_phrase_financière
- plus fin
- flores
- cheminée
- nourriture101
- fquad
- freebase_qa
- écart
- gemme
- avis_générés_enth
- génériques_kb
- reconnaissance_entité_juridique_allemande
- allemand
- germeval_14
- giga_fren
- gigamot
- glucose
- colle
- gnad10
- go_emotions
- bonjour
- google_wellformed_query
- graal_qa
- grand_code
- code_legal_grec
- gsm8k
- tuteur_auteur
- temps_gutenberg
- Hans
- hansards
- dur
- harem
- a_part
- haine_offensive
- hate_speech18
- haine_discours_philippin
- haine_discours_offensant
- hate_speech_pl
- haine_discours_portugais
- détesterexpliquer
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- head_qa
- santé_fait
- projet_hébreubenyehuda
- sentiment_hébreu
- hébreu_ce_monde
- hellaswag
- hendrycks_test
- hind_encorp
- discours_hindi
- hippocorps
- hkcancor
- hlgd
- espoir_edi
- hotpot_qa
- flotter
- hrenwac_para
- hrwac
- hummicroedit
- hybride_qa
- hyperpartisan_news_detection
- iapp_wiki_qa_squad
- id_clickbait
- id_liputan6
- id_nergrit_corpus
- id_newspapers_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingual
- igbo_ner
- iliste
- imagenet-1k
- imagenet_sketch
- imdb
- imdb_urdu_reviews
- impres
- indic_glue
- indonli
- indonlu
- curieux_qg
- interpress_news_category_tr
- interpress_news_category_tr_lite
- irc_disentangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- péril
- jfleg
- jigsaw_toxicity_pred
- jigsaw_unintended_bias
- jnlpba
- journalistes_questions
- kan_hope
- kannada_news
- kd_conv
- kde4
- kelm
- kilt_tasks
- kilt_wikipedia
- kinnews_kirnews
- indice
- kor_3i4k
- kor_hate
- kor_ner
- kor_nli
- kor_nlu
- kor_qpair
- kor_sae
- kor_sarcasme
- labre
- lama
- lambada
- grand_corpus_espagnol
- laroseda
- lc_quad
- lccc
- lener_br
- lex_glue
- menteur
- librispeech_asr
- librispeech_lm
- limite
- lince
- linné
- liveqa
- lj_discours
- lm1b
- lst20
- m_lama
- mac_morpho
- makhzan
- masakhaner
- math_dataset
- math_qa
- matin
- mbpp
- mc4
- mc_taco
- md_gender_bias
- mdd
- med_hop
- médaille
- medical_dialog
- medical_questions_pairs
- medmcqa
- menyo20k_mt
- méta_woz
- métashift
- métooma
- mètre
- miam
- mkb
- mkqa
- mlqa
- mlsum
- mniste
- moka
- monash_tsf
- maroc
- movie_rationales
- mrqa
- Mme_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_vietnamien
- la muchocine
- multi_booked
- multi_eurlex
- multi_news
- multi_nli
- multi_nli_mismatch
- multi_para_crawl
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- multidoc2dial
- multilingual_librispeech
- amis communs
- mwsc
- myanmar_news
- récitqa
- récitqa_manual
- questions_naturelles
- ncbi_disease
- nchlt
- ncslgr
- nell
- neural_code_search
- news_commentary
- groupe de discussion
- actualité
- newsph_nli
- newspop
- newsqa
- rédaction
- nkjp-ner
- nli_tr
- nlu_evaluation_data
- norec
- norne
- norvégien_ner
- nq_open
- nsmc
- numer_sense
- tête_fusée_numérique
- oclar
- offcombr
- offenseval2020_tr
- offenseval_dravidian
- ofis_publik
- ohsumé
- ollie
- omp
- onestop_francais
- onestop_qa
- open_subtitles
- openai_humaneval
- openbookqa
- ouvre lr
- openwebtext
- opinion
- opus100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- opus_rf
- opus_tedtalks
- opus_ubuntu
- opus_wikipedia
- opus_xhosanavy
- somme_orange
- oscar
- para_crawl
- para_pat
- parsinlu_reading_comprehension
- passer
- pattes
- pattes-x
- pec
- peer_read
- peoples_daily_ner
- per_sent
- persan_ner
- pg19
- php
- piaf
- pib
- piqa
- pn_summary
- poème_sentiment
- polemo2
- poleval2019_cyberharcèlement
- poleval2019_mt
- polsum
- polyglot_ner
- prachathai67k
- pragmatique
- proto_qa
- cps
- ptb_text_only
- pubmé
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- qangaroo
- qanta
- qasc
- qasper
- CQFD
- qed_amara
- quac
- Caille
- querelle
- quartz
- dégainer rapidement
- quora
- quoref
- course
- recomposer
- raisonnement_bg
- recette_nlg
- recolorer
- casquettes_rouges
- reddit_tifu
- rafraichir
- Reuters21578
- devinette_sens
- ro_sent
- ro_sts
- ro_sts_parallel
- roman_urdu
- roman_urdu_hate_speech
- ronec
- Cordes
- tomates pourries
- super_glue_russe
- rvl_cdip
- s2orc
- samsum
- sanskrit_classique
- saudinewsnet
- sberquad
- sbu_captions
- analyse
- scb_mt_enth_2020
- scene_parse_150
- schema_guided_dstc8
- scicite
- scielo
- articles scientifiques
- scifait
- sciq
- scitail
- scitldr
- search_qa
- sede
- selka
- sem_eval_2010_task_8
- sem_eval_2014_task_1
- sem_eval_2018_task_1
- sem_eval_2020_task_11
- sent_comp
- senti_lex
- senti_ws
- sentiments140
- sepedi_ner
- sesotho_ner_corpus
- fois
- setswana_ner_corpus
- requin
- sharc_modified
- malade
- silicone
- questions_simples_v2
- siswati_ner_corpus
- données intelligentes
- sms_spam
- snips_built_in_intents
- snli
- snow_simplified_japanese_corpus
- so_stacksample
- social_bias_frames
- social_i_qa
- softc_materials_articles
- sogou_news
- espagnol_milliard_mots
- CPS
- espèce_800
- commandes_vocales
- araignée
- équipe
- squad_adversarial
- squad_es
- équipe_it
- squad_kor_v1
- squad_kor_v2
- squad_v1_pt
- équipe_v2
- quarts de travail
- srwac
- mst
- stéréoset
- histoire_cloze
- stsb_mt_sv
- stsb_multi_mt
- style_change_detection
- subjqa
- super colle
- superbe
- svhn
- guirlande
- swahili
- swahili_news
- swda
- swedish_medical_ner
- swedish_ner_corpus
- avis_suédois
- jugement_suisse_prediction
- tab_fact
- tamilmixsentiment
- tanzil
- tapas
- tashkeela
- maître de tâche1
- maître de tâche2
- maître de tâche3
- tatoeba
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- telugu_books
- telugu_news
- tep_fr_fa_para
- text2log
- textvqa
- thai_toxicity_tweet
- thainer
- thaiqa_squad
- thaisum
- la pile
- the_pile_books3
- the_pile_openwebtext2
- the_pile_stack_exchange
- tilde_model
- time_dial
- times_of_india_news_headlines
- timit_asr
- minuscule_shakespeare
- tlc
- tmu_gfm_dataset
- moi
- dit-br
- toto
- trec
- trivia_qa
- véridique_qa
- tsac
- ttc4900
- tunisien
- tuple_ie
- Turc
- turc_xwmt
- sentiment_de_film_turc
- turkish_ner
- critiques_de_produits_turcs
- turkish_shrinked_ner
- turku_ner_corpus
- tweet_eval
- tweet_qa
- tweets_ar_en_parallel
- tweets_hate_speech_detection
- twi_text_c3
- twi_wordsim353
- tydiqa
- ubuntu_dialogs_corpus
- la duhr
- um005
- un_ga
- un_multi
- un_pc
- dépendances_universelles
- morphologies_universelles
- urdu_fake_news
- urdu_sentiment_corpus
- vctk
- génome_visuel
- vifs
- web_nlg
- Web de la Science
- web_questions
- weibo_ner
- wi_locness
- visage_large
- wiki40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- wiki_hop
- wiki_lingua
- wiki_movies
- wiki_qa
- wiki_qa_ar
- wiki_snippets
- wiki_source
- wiki_split
- wiki_summary
- wikiann
- wikicorpus
- wikihow
- Wikipédia
- wikisql
- wikitablequestions
- wikitexte
- wikitext_tl39
- wili_2018
- wino_bias
- winograd_wsc
- vinogrande
- Wiqa
- wisesight1000
- wisesight_sentiment
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- noun_17
- wongnai_reviews
- woz_dialogue
- wrbsc
- x_stance
- xcopa
- xcsr
- xed_en_fi
- xglue
- xnli
- xor_tydi_qa
- xquad
- xquad_r
- xsum
- xsum_factuality
- extrême
- yahoo_answers_qa
- yahoo_answers_topics
- yelp_polarité
- yelp_review_full
- yoruba_bbc_topics
- yoruba_gv_ner
- yoruba_text_c3
- yoruba_wordsim353
- youtube_caption_corrections
- zeste