Huggingface는 TFDS를 분기했으며 많은 텍스트 데이터 세트를 제공합니다. 자세한 문서는 여기 를 참조하세요. 다음으로 TFDS와 함께 사용할 수 있는 모든 데이터 세트 목록을 찾을 수 있습니다.
- acronym_identification
- ade_corpus_v2
- adv_glue
- adversarial_qa
- 에스크
- afrikaans_ner_corpus
- ag_news
- ai2_arc
- air_dialogue
- ajgt_twitter_ar
- allegro_reviews
- 알로신
- 대체
- amazon_polarity
- amazon_reviews_multi
- amazon_us_reviews
- ambig_qa
- Americas_nli
- 아미
- amttl
- 알리
- 앱_리뷰
- 물쥐
- 아쿠아뮤즈
- ar_cov19
- ar_res_reviews
- ar_sarcasm
- arabic_billion_words
- 아랍어_pos_dialect
- arabic_speech_corpus
- 아크
- asentd_lev
- 미술
- arxiv_dataset
- ascent_kb
- aslg_pc12
- asnq
- 유산
- 암살자
- 암살자 2
- 원자
- 아우슈마토
- 바비카
- 뱅킹77
- bbaw_egyptian
- bbc_hindi_nli
- bc2gm_corpus
- 콩
- 베스트2009
- 비안
- 성경_파라
- 큰_특허
- 빅벤치
- 청구서
- bing_coronavirus_query_set
- 바이오엠씨
- 생물체
- biwi_kinect_head_pose
- 블북
- 블북 장르
- Blended_skill_talk
- 소형 연식 비행선
- blog_authorship_corpus
- bn_hate_speech
- bnl_newspapers
- 북코퍼스
- 북코퍼스오픈
- 불크
- bprec
- break_data
- 브락
- bsd_ja_ko
- bswac
- c3
- c4
- 2018년 카일
- 캐너
- 망토
- 카지노
- catalonia_independent
- 고양이 대 개
- 카왁
- cbt
- CC100
- cc_news
- ccaligned_다국어
- CDSC
- CDT
- 삼나무
- cfq
- chr_en
- 시파르10
- 시파르100
- ...경
- Civil_comments
- clickbait_news_bg
- 기후_열
- clinc_oos
- 단서
- cmrc2018
- cmu_hinglish_dog
- cnn_dailymail
- Coached_conv_pref
- 거친 담론
- 코다
- code_search_net
- code_x_glue_cc_clone_detection_big_clone_bench
- code_x_glue_cc_clone_detection_poj104
- code_x_glue_cc_cloze_testing_all
- code_x_glue_cc_cloze_testing_maxmin
- code_x_glue_cc_code_completion_line
- code_x_glue_cc_code_completion_token
- code_x_glue_cc_code_refinement
- code_x_glue_cc_code_to_code_trans
- code_x_glue_cc_defect_detection
- code_x_glue_ct_code_to_text
- code_x_glue_tc_nl_code_search_adv
- code_x_glue_tc_text_to_code
- code_x_glue_tt_text_to_text
- com_qa
- common_gen
- 공통 언어
- common_voice
- 상식_qa
- 경쟁_수학
- 짐작하다
- 컨셉넷5
- 개념적_12m
- 개념적 캡션
- conll2000
- conll2002
- conll2003
- conll2012_ontonotesv5
- conllpp
- 소비자 금융 불만
- conv_ai
- conv_ai_2
- conv_ai_3
- conv_questions
- 코코아
- 코드19
- Cornell_movie_dialog
- 편안히 앉다
- 코스모스_카
- 카운터
- covid_qa_castorini
- covid_qa_deepset
- covid_qa_ucsd
- covid_tweets_japanese
- 코보스트2
- cppe-5
- craigslist_bargains
- 크롤링_도메인
- crd3
- 범죄와 처벌
- 까마귀 쌍
- 크립토나이트
- cs_restaurants
- 쿠아드
- 호기심_대화상자
- Daily_dialog
- 덴마크 사람
- danish_political_comments
- 다트
- datacommons_factcheck
- dbpedia_14
- dbrd
- deal_or_no_dialog
- 확실한_대명사_해상도
- 뎅기열_필리핀
- dialog_re
- 외교_탐지
- 재해_응답_메시지
- 밝히다
- 발견
- disfl_qa
- doc2dial
- docred
- 도카
- 꿈
- 하락
- 듀오크
- 네덜란드어_소셜
- 다이크
- e2e_nlg
- e2e_nlg_cleaned
- ecb
- ectr_cases
- 에듀
- ehealth_kd
- eitb_parcc
- electric_load_diagrams
- 엘리5
- eli5_category
- 엘카르히즈케탁
- 에메아
- 이모
- 감정
- emotone_ar
- empathetic_dialogues
- 풍부한_웹_nlg
- enwik8
- 지우개_다중_rc
- 에스엔리
- eth_py150_open
- 기풍
- 엣
- eu_regulatory_ir
- 유렉스
- 유로뉴스
- europa_eac_tm
- europa_ecdc_tm
- europarl_bilingual
- 이벤트2마인드
- 증거_추론_치료
- 시험
- 사실
- fake_news_english
- fake_news_필리핀
- farsi_news
- 패션_엠니스트
- 열
- 몇 가지_rel
- Financial_phrasebank
- 더 미세한
- 플로레스
- 독감
- 음식101
- fquad
- freebase_qa
- 갭
- 보석
- 생성된_리뷰_enth
- 제네릭_kb
- German_legal_entity_recognition
- 독일인
- 세균_14
- giga_fren
- 기가워드
- 포도당
- 접착제
- 그나드10
- go_emotions
- 구악
- google_wellformed_query
- grail_qa
- 위대한 코드
- greek_legal_code
- gsm8k
- Guardian_authorship
- 구텐베르크_시간
- 한스
- 핸사드
- 딱딱한
- 하렘
- has_part
- hater_offensive
- hater_speech18
- hat_speech_필리피노
- hat_speech_offensive
- Hate_speech_pl
- hat_speech_portuguese
- 해명하다
- hausa_voa_ner
- hausa_voa_topics
- hda_nli_hindi
- head_qa
- 건강_사실
- 히브리어_프로젝트베니에후다
- 히브리어 감정
- 히브리어_이 세상
- 헬라스와그
- hendrycks_test
- hind_encorp
- 힌디어 담론
- 해마
- hkcancor
- hlgd
- 희망_에디
- hotpot_qa
- 호버
- hrenwac_para
- hrwac
- 휴마이크로에디트
- 하이브리드_qa
- hyperpartisan_news_detection
- iapp_wiki_qa_squad
- id_clickbait
- id_liputan6
- id_nergrit_corpus
- id_newspapers_2018
- id_panl_bppt
- id_puisi
- igbo_english_machine_translation
- igbo_monolingual
- igbo_ner
- 일리스트
- 이미지넷-1k
- imagenet_sketch
- imdb
- imdb_urdu_reviews
- 감동
- indic_glue
- 인돈리
- 인돈루
- inquisitive_qg
- interpress_news_category_tr
- interpress_news_category_tr_lite
- irc_disentangle
- isixhosa_ner_corpus
- isizulu_ner_corpus
- iwslt2017
- 위험
- 제이플
- jigsaw_toxicity_pred
- jigsaw_unintented_bias
- jnlpba
- 저널리스트_질문
- kan_hope
- kannada_news
- kd_conv
- kde4
- 다시마
- kilt_tasks
- 킬트_위키피디아
- kinnews_kirnews
- 클루
- kor_3i4k
- kor_hate
- kor_ner
- kor_nli
- kor_nlu
- kor_q페어
- 코르새
- kor_sarcasm
- 연구실
- 라마승
- 람바다
- large_spanish_corpus
- 라로세다
- lc_quad
- lccc
- lener_br
- lex_glue
- 거짓말쟁이
- librispeech_asr
- librispeech_lm
- 한계
- 린스
- 린네
- 라이브카
- lj_speech
- lm1b
- lst20
- m_라마
- mac_morpho
- 막잔
- 마사카네르
- 수학_데이터세트
- 수학_카
- 매틴프
- mbpp
- 맥4
- mc_taco
- md_gender_bias
- MDD
- med_hop
- 메달
- 의료_대화
- 의료_질문_쌍
- 메드엠카
- 멘요20k_mt
- 메타_워즈
- 메타 시프트
- 메투마
- 미터
- 마이애미
- mkb
- mkqa
- mlqa
- mlsum
- 니스트
- 모카
- monash_tsf
- 모로코
- 영화_근거
- 미르카
- ms_marco
- ms_terms
- msr_genomics_kbcomp
- msr_sqa
- msr_text_compression
- msr_zhen_translation_parity
- msra_ner
- mt_eng_vietnamese
- 많은 신
- 다중 예약
- multi_eurlex
- multi_news
- multi_nli
- multi_nli_mismatch
- multi_para_crawl
- multi_re_qa
- multi_woz_v22
- multi_x_science_sum
- multidoc2dial
- 다국어_librispeech
- 상호 친구
- mwsc
- 미얀마_뉴스
- 내러티브
- 내러티브qa_manual
- natural_questions
- ncbi_disease
- nchlt
- ncslgr
- 넬
- 신경 코드 검색
- 뉴스_코멘트
- 뉴스 그룹
- 뉴스프
- newsph_nli
- 뉴스팝
- 뉴스카
- 뉴스 편집실
- nkjp-ner
- nli_tr
- nlu_evaluation_data
- 노렉
- 노른
- 노르웨이 사람
- nq_open
- nsmc
- 숫자 센스
- numeric_fused_head
- 오클라
- 오프컴브르
- 공격발2020_tr
- 오펜스발드라비디안
- ofis_publik
- 오스메드
- 올리
- 좋은
- onestop_english
- 원스톱_카
- open_subtitles
- openai_humaneval
- 오픈북카
- Openslr
- 오픈웹텍스트
- 오피노시스
- opus100
- opus_books
- opus_dgt
- opus_dogc
- opus_elhuyar
- opus_euconst
- opus_finlex
- opus_fiskmo
- opus_gnome
- opus_infopankki
- opus_memat
- opus_montenegrinsubs
- opus_openoffice
- opus_paracrawl
- opus_rf
- opus_tedtalks
- opus_ubuntu
- opus_wikipedia
- opus_xhosanavy
- 오렌지_섬
- 오스카
- para_crawl
- para_pat
- parsinlu_reading_comprehension
- 통과하다
- 발
- 발 x
- 펙
- peer_read
- people_daily_ner
- per_sent
- persian_ner
- 19페이지
- PHP
- 피아프
- 핍
- 피카
- pn_summary
- 시_감정
- 폴모2
- poleval2019_cyberbullying
- poleval2019_mt
- 폴섬
- 다국어체
- 프라차타이67k
- 실용주의
- proto_qa
- PSC
- ptb_text_only
- pubmed
- pubmed_qa
- py_ast
- qa4mre
- qa_srl
- qa_zre
- 캥거루
- 콴타
- 카스크
- 카스퍼
- 큐드
- qed_amara
- 꽥꽥
- 메추라기
- 말다툼
- 석영
- 퀵드로우
- 쿼라
- 인용
- 경주
- 재다이얼
- 추론_bg
- 조리법_nlg
- 다시 칠하다
- red_caps
- 레딧
- reddit_tifu
- 리프레시
- 로이터21578
- 수수께끼의 감각
- ro_sent
- ro_sts
- ro_sts_parallel
- roman_urdu
- roman_urdu_hate_speech
- 로넥
- 로프
- 썩은 토마토
- russian_super_glue
- rvl_cdip
- s2orc
- 삼섬
- 산스크리트어_고전
- 사우디 뉴스넷
- 스버쿼드
- sbu_captions
- 주사
- scb_mt_enth_2020
- scene_parse_150
- schema_guided_dstc8
- 싸이사이트
- 시엘로
- 과학 논문
- 과학
- 시크
- 시테일
- scitldr
- search_qa
- 세드
- 셀카
- sem_eval_2010_task_8
- sem_eval_2014_task_1
- sem_eval_2018_task_1
- sem_eval_2020_task_11
- sent_comp
- 센티 렉스
- 센티_ws
- 감성140
- sepedi_ner
- sesoto_ner_corpus
- 설정
- setswana_ner_corpus
- 샤크
- sharc_modified
- 아픈
- 실리콘
- simple_questions_v2
- siswati_ner_corpus
- 스마트 데이터
- sms_spam
- snips_built_in_intents
- snli
- snow_simplified_japanese_corpus
- so_stacksample
- social_bias_frames
- Social_i_qa
- sofc_materials_articles
- sogou_news
- spanish_billion_words
- spc
- 종_800
- Speech_commands
- 거미
- 분대
- 분대_적대
- 분대
- 분대_잇
- 스쿼드_kor_v1
- squad_kor_v2
- 분대_v1_pt
- 분대_v2
- 분대조
- srwac
- sst
- 스테레오셋
- 스토리 클로즈
- stsb_mt_sv
- stsb_multi_mt
- style_change_detection
- 서브짜
- 초강력 접착제
- 훌륭한
- svhn
- 꽃잎 장식
- 스와힐리어
- swahili_news
- swda
- swedish_medical_ner
- swedish_ner_corpus
- swedish_reviews
- swiss_judgment_prediction
- tab_fact
- 타밀어혼합감정
- 탄질
- 타파코
- 타슈킬라
- 태스크마스터1
- 태스크마스터2
- 태스크마스터3
- 타토에바
- ted_hrlr
- ted_iwlst2013
- ted_multi
- ted_talks_iwslt
- telugu_books
- telugu_news
- tep_en_fa_para
- 텍스트2로그
- 텍스트vqa
- 타이어_독성_트윗
- 타이너
- Thaiqa_squad
- 타이숨
- 더미
- the_pile_books3
- the_pile_openwebtext2
- the_pile_stack_exchange
- 물결표 모델
- time_dial
- times_of_india_news_headlines
- timit_asr
- 작은_셰익스피어
- tlc
- tmu_gfm_dataset
- 네
- 말했다-br
- 토토
- 트렉
- trivia_qa
- 진실한_카
- tsac
- ttc4900
- 튀니지
- tuple_ie
- 잔인한 사람
- turkic_xwmt
- turkish_movie_sentiment
- 터키인
- turkish_product_reviews
- turkish_shrinked_ner
- turku_ner_corpus
- 트윗_평가
- 짹짹짹
- 트윗_ar_en_parallel
- Tweets_hate_speech_detection
- twi_text_c3
- twi_wordsim353
- 티디카
- 우분투_dialogs_corpus
- udhr
- um005
- un_ga
- un_multi
- un_pc
- 보편적인_의존성
- 보편적인 형태
- 우르두어_fake_news
- urdu_sentiment_corpus
- vctk
- Visual_genome
- 비보스
- web_nlg
- web_of_science
- web_questions
- weibo_ner
- wi_locness
- 더 넓은 얼굴
- 위키40b
- wiki_asp
- wiki_atomic_edits
- wiki_auto
- wiki_bio
- wiki_dpr
- wiki_hop
- wiki_lingua
- wiki_movies
- wiki_qa
- wiki_qa_ar
- wiki_snippets
- wiki_source
- wiki_split
- wiki_summary
- 위키앤
- 위키코퍼스
- 위키하우
- 위키피디아
- 위키SQL
- 위키테이블질문
- 위키텍스트
- wikitext_tl39
- wili_2018
- wino_bias
- winograd_wsc
- 위노그란데
- 위카
- 와이즈사이트1000
- 현명한 통찰력
- wmt14
- wmt15
- wmt16
- wmt17
- wmt18
- wmt19
- wmt20_mlqe_task1
- wmt20_mlqe_task2
- wmt20_mlqe_task3
- wmt_t2t
- wnut_17
- wonnai_reviews
- woz_dialogue
- wrbsc
- x_stance
- 엑스코파
- xcsr
- xed_en_fi
- 풀
- xnli
- xor_tydi_qa
- 엑스쿼드
- xquad_r
- xsum
- xsum_factuality
- 익스트림
- yahoo_answers_qa
- yahoo_answers_topics
- yelp_polarity
- yelp_review_full
- yoruba_bbc_topics
- yoruba_gv_ner
- yoruba_text_c3
- yoruba_wordsim353
- youtube_caption_corrections
- 풍미