- 説明:
Universal Dependencies (UD) は、さまざまな人間の言語間で文法 (品詞、形態学的特徴、および構文の依存関係) の一貫した注釈を付けるためのフレームワークです。 UD は、100 以上の言語で 200 以上のツリーバンクを作成する 300 人以上の貢献者によるオープン コミュニティの取り組みです。 UD を初めて使用する場合は、まず概要の最初の部分を読んでから、注釈のガイドラインを参照してください。
バージョン:
-
1.0.0
: Universal Dependencies 2.10 に対応する初期リリース。 -
1.0.1
(デフォルト): 更新された構成名。
-
機能構造:
FeaturesDict({
'deprel': Sequence(Text(shape=(), dtype=string)),
'deps': Sequence(Text(shape=(), dtype=string)),
'feats': Sequence(Text(shape=(), dtype=string)),
'head': Sequence(Text(shape=(), dtype=string)),
'idx': Text(shape=(), dtype=string),
'lemmas': Sequence(Text(shape=(), dtype=string)),
'misc': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'tokens': Sequence(Text(shape=(), dtype=string)),
'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
'xpos': Sequence(Text(shape=(), dtype=string)),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
減価する | シーケンス(テキスト) | (なし、) | ストリング | |
深さ | シーケンス(テキスト) | (なし、) | ストリング | |
偉業 | シーケンス(テキスト) | (なし、) | ストリング | |
頭 | シーケンス(テキスト) | (なし、) | ストリング | |
idx | 文章 | ストリング | ||
補題 | シーケンス(テキスト) | (なし、) | ストリング | |
その他 | シーケンス(テキスト) | (なし、) | ストリング | |
文章 | 文章 | ストリング | ||
トークン | シーケンス(テキスト) | (なし、) | ストリング | |
ウポス | シーケンス(クラスラベル) | (なし、) | int64 | |
xpos | シーケンス(テキスト) | (なし、) | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@misc{11234/1-4758,
title = {Universal Dependencies 2.10},
author = {Zeman, Daniel and Nivre, Joakim and Abrams, Mitchell and Ackermann, Elia and Aepli, No{"e}mi and Aghaei, Hamid and Agi{'c}, {v Z}eljko and Ahmadi, Amir and Ahrenberg, Lars and Ajede, Chika Kennedy and Aleksandravi{v c}i{=u}te, Gabriele and Alfina, Ika and Algom, Avner and Andersen, Erik and Antonsen, Lene and Aplonova, Katya and Aquino, Angelina and Aragon, Carolina and Aranes, Glyd and Aranzabe, Maria Jesus and Arican, Bilge Nas and Arnard{'o}ttir, { H}{'o}runn and Arutie, Gashaw and Arwidarasti, Jessica Naraiswari and Asahara, Masayuki and Aslan, Deniz Baran and Asmazoglu, Cengiz and Ateyah, Luma and Atmaca, Furkan and Attia, Mohammed and Atutxa, Aitziber and Augustinus, Liesbeth and Badmaeva, Elena and Balasubramani, Keerthana and Ballesteros, Miguel and Banerjee, Esha and Bank, Sebastian and Barbu Mititelu, Verginica and Barkarson, Starkaður and Basile, Rodolfo and Basmov, Victoria and Batchelor, Colin and Bauer, John and Bedir, Seyyit Talha and Bengoetxea, Kepa and Ben Moshe, Yifat and Berk, G{"o}zde and Berzak, Yevgeni and Bhat, Irshad Ahmad and Bhat, Riyaz Ahmad and Biagetti, Erica and Bick, Eckhard and Bielinskiene, Agne and Bjarnad{'o}ttir, Krist{'i}n and Blokland, Rogier and Bobicev, Victoria and Boizou, Lo{"i}c and Borges V{"o}lker, Emanuel and B{"o}rstell, Carl and Bosco, Cristina and Bouma, Gosse and Bowman, Sam and Boyd, Adriane and Braggaar, Anouck and Brokaite, Kristina and Burchardt, Aljoscha and Candito, Marie and Caron, Bernard and Caron, Gauthier and Cassidy, Lauren and Cavalcanti, Tatiana and Cebiroglu Eryigit, G{"u}l{s}en and Cecchini, Flavio Massimiliano and Celano, Giuseppe G. A. and {C}{'e}pl{"o}, Slavom{'i}r and Cesur, Neslihan and Cetin, Savas and {C}etinoglu, {"O}zlem and Chalub, Fabricio and Chauhan, Shweta and Chi, Ethan and Chika, Taishi and Cho, Yongseok and Choi, Jinho and Chun, Jayeol and Chung, Juyeon and Cignarella, Alessandra T. and Cinkov{'a}, Silvie and Collomb, Aur{'e}lie and {C}{"o}ltekin, {C}a{g}ri and Connor, Miriam and Corbetta, Daniela and Courtin, Marine and Cristescu, Mihaela and Daniel, Philemon and Davidson, Elizabeth and Dehouck, Mathieu and de Laurentiis, Martina and de Marneffe, Marie-Catherine and de Paiva, Valeria and Derin, Mehmet Oguz and de Souza, Elvis and Diaz de Ilarraza, Arantza and Dickerson, Carly and Dinakaramani, Arawinda and Di Nuovo, Elisa and Dione, Bamba and Dirix, Peter and Dobrovoljc, Kaja and Dozat, Timothy and Droganova, Kira and Dwivedi, Puneet and Eckhoff, Hanne and Eiche, Sandra and Eli, Marhaba and Elkahky, Ali and Ephrem, Binyam and Erina, Olga and Erjavec, Toma{v z} and Etienne, Aline and Evelyn, Wograine and Facundes, Sidney and Farkas, Rich{'a}rd and Favero, Federica and Ferdaousi, Jannatul and Fernanda, Mar{'i}lia and Fernandez Alcalde, Hector and Foster, Jennifer and Freitas, Cl{'a}udia and Fujita, Kazunori and Gajdo{v s}ov{'a}, Katar{'i}na and Galbraith, Daniel and Gamba, Federica and Garcia, Marcos and G{"a}rdenfors, Moa and Garza, Sebastian and Gerardi, Fabr{'i}cio Ferraz and Gerdes, Kim and Ginter, Filip and Godoy, Gustavo and Goenaga, Iakes and Gojenola, Koldo and G{"o}kirmak, Memduh and Goldberg, Yoav and G{'o}mez Guinovart, Xavier and Gonz{'a}lez Saavedra, Berta and Griciute, Bernadeta and Grioni, Matias and Grobol, Lo{"i}c and Gruzitis, Normunds and Guillaume, Bruno and Guillot-Barbance, C{'e}line and G{"u}ng{"o}r, Tunga and Habash, Nizar and Hafsteinsson, Hinrik and Hajic, Jan and Hajic jr., Jan and H{"a}m{"a}l{"a}inen, Mika and Ha My, Linh and Han, Na-Rae and Hanifmuti, Muhammad Yudistira and Harada, Takahiro and Hardwick, Sam and Harris, Kim and Haug, Dag and Heinecke, Johannes and Hellwig, Oliver and Hennig, Felix and Hladk{'a}, Barbora and Hlav{'a}{v c}ov{'a}, Jaroslava and Hociung, Florinel and Hohle, Petter and Hwang, Jena and Ikeda, Takumi and Ingason, Anton Karl and Ion, Radu and Irimia, Elena and Ishola, {O}l{'a}j{'i}d{'e} and Ito, Kaoru and Jannat, Siratun and Jel{'i}nek, Tom{'a}{v s} and Jha, Apoorva and Johannsen, Anders and J{'o}nsd{'o}ttir, Hildur and Jorgensen, Fredrik and Juutinen, Markus and K, Sarveswaran and Ka{c s}ikara, H{"u}ner and Kaasen, Andre and Kabaeva, Nadezhda and Kahane, Sylvain and Kanayama, Hiroshi and Kanerva, Jenna and Kara, Neslihan and Karah{'o}ǧa, Ritv{'a}n and Katz, Boris and Kayadelen, Tolga and Kenney, Jessica and Kettnerov{'a}, V{'a}clava and Kirchner, Jesse and Klementieva, Elena and Klyachko, Elena and K{"o}hn, Arne and K{"o}ksal, Abdullatif and Kopacewicz, Kamil and Korkiakangas, Timo and K{"o}se, Mehmet and Kotsyba, Natalia and Kovalevskaite, Jolanta and Krek, Simon and Krishnamurthy, Parameswari and K{"u}bler, Sandra and Kuyruk{c c}u, O{g}uzhan and Kuzgun, Asli and Kwak, Sookyoung and Laippala, Veronika and Lam, Lucia and Lambertino, Lorenzo and Lando, Tatiana and Larasati, Septina Dian and Lavrentiev, Alexei and Lee, John and Le H{o}ng, Phương and Lenci, Alessandro and Lertpradit, Saran and Leung, Herman and Levina, Maria and Li, Cheuk Ying and Li, Josie and Li, Keying and Li, Yuan and Lim, {KyungTae} and Lima Padovani, Bruna and Lind{'e}n, Krister and Ljube{s}i{'c}, Nikola and Loginova, Olga and Lusito, Stefano and Luthfi, Andry and Luukko, Mikko and Lyashevskaya, Olga and Lynn, Teresa and Macketanz, Vivien and Mahamdi, Menel and Maillard, Jean and Makazhanov, Aibek and Mandl, Michael and Manning, Christopher and Manurung, Ruli and Mar{s}an, B{"u}{s}ra and M{a}r{a}nduc, C{a}t{a}lina and Mare{c}ek, David and Marheinecke, Katrin and Markantonatou, Stella and Mart{'i}nez Alonso, H{'e}ctor and Mart{'i}n Rodr{'i}guez, Lorena and Martins, Andr{'e} and Ma{s}ek, Jan and Matsuda, Hiroshi and Matsumoto, Yuji and Mazzei, Alessandro and {McDonald}, Ryan and {McGuinness}, Sarah and Mendon{c}a, Gustavo and Merzhevich, Tatiana and Miekka, Niko and Mischenkova, Karina and Misirpashayeva, Margarita and Missil{"a}, Anna and Mititelu, C{a}t{a}lin and Mitrofan, Maria and Miyao, Yusuke and Mojiri Foroushani, {AmirHossein} and Moln{'a}r, Judit and Moloodi, Amirsaeid and Montemagni, Simonetta and More, Amir and Moreno Romero, Laura and Moretti, Giovanni and Mori, Keiko Sophie and Mori, Shinsuke and Morioka, Tomohiko and Moro, Shigeki and Mortensen, Bjartur and Moskalevskyi, Bohdan and Muischnek, Kadri and Munro, Robert and Murawaki, Yugo and M{"u}{"u}risep, Kaili and Nainwani, Pinkey and Nakhl{'e}, Mariam and Navarro Horniacek, Juan Ignacio and Nedoluzhko, Anna and Ne{v s}pore-Berzkalne, Gunta and Nevaci, Manuela and Nguy{e}n Th{i}, Lương and Nguy{e}n Th{i} Minh, Huy{e}n and Nikaido, Yoshihiro and Nikolaev, Vitaly and Nitisaroj, Rattima and Nourian, Alireza and Nurmi, Hanna and Ojala, Stina and Ojha, Atul Kr. and Ol{'u}{'o}kun, Ad{e}day{o}̀ and Omura, Mai and Onwuegbuzia, Emeka and Ordan, Noam and Osenova, Petya and {"O}stling, Robert and {O}vrelid, Lilja and {"O}zate{s}, {S}aziye Bet{"u}l and {"O}z{c}elik, Merve and {"O}zg{"u}r, Arzucan and {"O}zt{"u}rk Ba{s}aran, Balkiz and Paccosi, Teresa and Palmero Aprosio, Alessio and Park, Hyunji Hayley and Partanen, Niko and Pascual, Elena and Passarotti, Marco and Patejuk, Agnieszka and Paulino-Passos, Guilherme and Pedonese, Giulia and Peljak-{L}api{n}ska, Angelika and Peng, Siyao and Perez, Cenel-Augusto and Perkova, Natalia and Perrier, Guy and Petrov, Slav and Petrova, Daria and Peverelli, Andrea and Phelan, Jason and Piitulainen, Jussi and Pirinen, Tommi A and Pitler, Emily and Plank, Barbara and Poibeau, Thierry and Ponomareva, Larisa and Popel, Martin and Pretkalni{n}a, Lauma and Pr{'e}vost, Sophie and Prokopidis, Prokopis and Przepi{o}rkowski, Adam and Puolakainen, Tiina and Pyysalo, Sampo and Qi, Peng and R{"a}{"a}bis, Andriela and Rademaker, Alexandre and Rahoman, Mizanur and Rama, Taraka and Ramasamy, Loganathan and Ramisch, Carlos and Rashel, Fam and Rasooli, Mohammad Sadegh and Ravishankar, Vinit and Real, Livy and Rebeja, Petru and Reddy, Siva and Regnault, Mathilde and Rehm, Georg and Riabov, Ivan and Rie{ss}ler, Michael and Rimkut{e}, Erika and Rinaldi, Larissa and Rituma, Laura and Rizqiyah, Putri and Rocha, Luisa and R{"o}gnvaldsson, Eir{'i}kur and Romanenko, Mykhailo and Rosa, Rudolf and Roșca, Valentin and Rovati, Davide and Rozonoyer, Ben and Rudina, Olga and Rueter, Jack and R{'u}narsson, Kristj{'a}n and Sadde, Shoval and Safari, Pegah and Sagot, Beno{i}t and Sahala, Aleksi and Saleh, Shadi and Salomoni, Alessio and Samard{v z}i{'c}, Tanja and Samson, Stephanie and Sanguinetti, Manuela and Saniyar, Ezgi and S{"a}rg, Dage and Saulite, Baiba and Sawanakunanon, Yanin and Saxena, Shefali and Scannell, Kevin and Scarlata, Salvatore and Schneider, Nathan and Schuster, Sebastian and Schwartz, Lane and Seddah, Djam{'e} and Seeker, Wolfgang and Seraji, Mojgan and Shahzadi, Syeda and Shen, Mo and Shimada, Atsuko and Shirasu, Hiroyuki and Shishkina, Yana and Shohibussirri, Muh and Sichinava, Dmitry and Siewert, Janine and Sigurðsson, Einar Freyr and Silveira, Aline and Silveira, Natalia and Simi, Maria and Simionescu, Radu and Simk{'o}, Katalin and {S}imkov{'a}, M{'a}ria and Simov, Kiril and Skachedubova, Maria and Smith, Aaron and Soares-Bastos, Isabela and Sourov, Shafi and Spadine, Carolyn and Sprugnoli, Rachele and Stamou, Vivian and Steingr{'i}msson, Stein{h}{'o}r and Stella, Antonio and Straka, Milan and Strickland, Emmett and Strnadov{'a}, Jana and Suhr, Alane and Sulestio, Yogi Lesmana and Sulubacak, Umut and Suzuki, Shingo and Swanson, Daniel and Sz{'a}nt{'o}, Zsolt and Taguchi, Chihiro and Taji, Dima and Takahashi, Yuta and Tamburini, Fabio and Tan, Mary Ann C. and Tanaka, Takaaki and Tanaya, Dipta and Tavoni, Mirko and Tella, Samson and Tellier, Isabelle and Testori, Marinella and Thomas, Guillaume and Tonelli, Sara and Torga, Liisi and Toska, Marsida and Trosterud, Trond and Trukhina, Anna and Tsarfaty, Reut and T{"u}rk, Utku and Tyers, Francis and Uematsu, Sumire and Untilov, Roman and Ure{v s}ov{'a}, Zde{n}ka and Uria, Larraitz and Uszkoreit, Hans and Utka, Andrius and Vagnoni, Elena and Vajjala, Sowmya and van der Goot, Rob and Vanhove, Martine and van Niekerk, Daniel and van Noord, Gertjan and Varga, Viktor and Vedenina, Uliana and Villemonte de la Clergerie, Eric and Vincze, Veronika and Vlasova, Natalia and Wakasa, Aya and Wallenberg, Joel C. and Wallin, Lars and Walsh, Abigail and Wang, Jing Xian and Washington, Jonathan North and Wendt, Maximilan and Widmer, Paul and Wigderson, Shira and Wijono, Sri Hartati and Williams, Seyi and Wir{'e}n, Mats and Wittern, Christian and Woldemariam, Tsegay and Wong, Tak-sum and Wr{'o}blewska, Alina and Yako, Mary and Yamashita, Kayo and Yamazaki, Naoki and Yan, Chunxiao and Yasuoka, Koichi and Yavrumyan, Marat M. and Yenice, Arife Bet{"u}l and Yildiz, Olcay Taner and Yu, Zhuoran and Yuliawati, Arlisa and {Z}abokrtsk{'y}, Zden{v e}k and Zahra, Shorouq and Zeldes, Amir and Zhou, He and Zhu, Hanzhi and Zhuravleva, Anna and Ziane, Rayan
},
url = {http://hdl.handle.net/11234/1-4758},
note = { {LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({ {'U}FAL}), Faculty of Mathematics and Physics, Charles University},
copyright = {Licence Universal Dependencies v2.10},
year = {2022}
}
universal_dependencies/af_afribooms (デフォルト設定)
構成の説明: UD Afrikaans-AfriBooms は AfriBooms 依存関係ツリーバンクを変換したもので、元々はスタンフォード タグ セットのサブセットに従って単純化された PoS セットと依存関係で注釈が付けられています。コーパスは、政府の公的文書で構成されています。このデータセットは、Augustinus らによる「AfriBooms: An Online Treebank for Afrikaans」で提案されました。 (2016); https://www.aclweb.org/anthology/L16-1107.pdf
ダウンロードサイズ:
2.95 MiB
データセットサイズ:
4.02 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 194 |
'test' | 425 |
'train' | 1,315 |
- 例( tfds.as_dataframe ):
universal_dependencies/akk_pisandub
構成の説明: バビロニアの王室の碑文からの短い文のセット。
ダウンロードサイズ:
99.41 KiB
データセットサイズ:
126.32 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 101 |
- 例( tfds.as_dataframe ):
universal_dependencies/akk_riao
構成説明: UD_Akkadian-RIAO は、22 277 語と 1845 文からなる小さなツリーバンクです。これは、紀元前 10 世紀と 9 世紀の初期のネオ アッシリア王室の碑文から合計 2211 文の無傷のサブセットを表しています。これらの王室の碑文は Oracc (Open Richly Annotated Cuneiform Corpus; http://oracc.museum.upenn.edu/riao/ ) から抽出されたもので、そこではすべての新アッシリア王家の碑文が単語ごとに見出し語化されています。コーパスの言語は標準的なバビロニア語であり、時折アッシリア語が使われていますが、「アッカド語」はアッシリア語とバビロニア語の両方を包括する用語です。ツリーバンクには、UD アノテーション ガイドラインに従って手動でアノテーションが付けられました。
ダウンロードサイズ:
1.87 MiB
データセットサイズ:
2.79 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,874 |
- 例( tfds.as_dataframe ):
universal_dependencies/aqz_tudet
構成の説明: UD_Akuntsu-TuDeT は、Akuntsu の注釈付きテキストのコレクションです。 UD_Tupinamba-TuDeT および UD_Munduruku-TuDeT とともに、UD_Akuntsu-TuDeT は TuLaR プロジェクトの一部です。文章には、Carolina Aragon と Fabrício Ferraz Gerardi によって注釈が付けられています。
ダウンロードサイズ:
67.25 KiB
データセットサイズ:
97.39 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 243 |
- 例( tfds.as_dataframe ):
universal_dependencies/sq_tsa
構成の説明: 標準アルバニア語 (TSA) の UD ツリーバンクは、922 個のトークンに対応する 60 の文で構成される小さなツリーバンクです。データはウィキペディアのさまざまなエントリから収集されました。このツリーバンクは、Universal Dependencies ガイドラインに従って主に手動で作成されました。レンマタイゼーションは、Albanian National Corpus チーム (Maria Morozova、Alexander Rusakov、Timofey Arkhangelskiy) によって開発されたレンマタイザーhttps://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/を使用して実行されました。タグ付けと形態素解析は Python スクリプトによって半自動化され、手動で修正されましたが、依存関係は完全に手動で割り当てられました。 Treebank のサイズを大きくしたり、全体的な品質を向上させたりするためのイニシアチブをお勧めします。
ダウンロードサイズ:
62.00 KiB
データセットサイズ:
93.65 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 60 |
- 例( tfds.as_dataframe ):
Universal_dependencies/am_att
構成の説明: UD_Amharic-ATT は、手動で注釈が付けられたツリーバンクです。 POS タグ、形態情報、依存関係のアノテーションが付与されています。アムハラ語は形態学的に豊富でプロ ドロップの言語であり、接語が 2 倍になるという特徴があるため、接語は手動で分割されています。
ダウンロードサイズ:
995.32 KiB
データセットサイズ:
1.33 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,074 |
- 例( tfds.as_dataframe ):
universal_dependencies/grc_perseus
構成の説明: この Universal Dependencies Ancient Greek Treebank は、Ancient Greek and Latin Dependency Treebank 2.1 から選択した節の自動変換で構成されています。
ダウンロードサイズ:
18.02 MiB
データセットのサイズ:
24.52 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,137 |
'test' | 1,306 |
'train' | 11,476 |
- 例( tfds.as_dataframe ):
universal_dependencies/grc_proiel
構成の説明: 古代ギリシャの PROIEL ツリーバンクは、オスロ大学の哲学、古典、芸術および思想の学科で維持されている PROIEL ツリーバンクの古代ギリシャのデータに基づいています。変換は、 https://github.com/proiel/proiel-treebank/releasesから入手できる PROIEL ツリーバンクの 20180408 リリースに基づいています。元のアノテーターは、そこにあるファイルで確認できます。変換コードは、Rubygem の proiel-cli ( https://github.com/proiel/proiel-cli ) で入手できます。
ダウンロードサイズ:
22.62 MiB
データセットのサイズ:
30.92 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,019 |
'test' | 1,047人 |
'train' | 15,014 |
- 例( tfds.as_dataframe ):
Universal_dependencies/apu_ufpa
構成の説明: 初期リリースには、70 の注釈付きの文章が含まれています。これは、アラワク族の言語による最初のツリーバンクです。元のインターライン グロスはツリー バンクに含まれており、完全な UD 注釈への変換は進行中のプロセスです。 sent_id 値 (例: FernandaM2017:Texto-6-19) は、コレクター、発行年、テキスト識別子、および元のテキストから順に文の番号を表します。
ダウンロードサイズ:
95.51 KiB
データセットサイズ:
98.49 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 115 |
- 例( tfds.as_dataframe ):
Universal_dependencies/hbo_ptnk
構成の説明: UD 古代ヘブライ語 PTNK には、ETCBC からの形態学的注釈が付いた Biblia Hebraic Stuttgartensia の一部が含まれています。
ダウンロードサイズ:
3.11 MiB
データセットサイズ:
4.28 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 439 |
'test' | 410 |
'train' | 730 |
- 例( tfds.as_dataframe ):
universal_dependencies/ar_nyuad
構成説明: ツリーバンクは 19,738 文 (738889 トークン) で構成され、そのドメインは主にニュースワイヤーです。注釈は CC BY-SA 4.0 の条件に基づいてライセンスされており、元の PATB は LDC の公式 Web サイトから入手できます。
ダウンロードサイズ:
55.87 MiB
データセットサイズ:
78.33 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,986 |
'test' | 1,963 |
'train' | 15,789 |
- 例( tfds.as_dataframe ):
universal_dependencies/ar_padt
構成の説明: アラビア語-PADT UD ツリーバンクは、プラハのカレル大学で作成されたプラハ アラビア語依存関係ツリーバンク (PADT) に基づいています。
ダウンロードサイズ:
48.84 MiB
データセットサイズ:
64.42 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 909 |
'test' | 680 |
'train' | 6,075 |
- 例( tfds.as_dataframe ):
Universal_dependencies/ar_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
1.98 MiB
データセットサイズ:
2.34 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
universal_dependencies/aii_as
構成の説明: Uppsala Assyrian Treebank は、Modern Standard Assyrian の小さなツリーバンクです。コーパスは手動で収集され、注釈が付けられます。データは、さまざまな教科書と「ベニスの商人」の短い翻訳からランダムに収集されました。
ダウンロードサイズ:
31.99 KiB
データセットサイズ:
48.85 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 57 |
- 例( tfds.as_dataframe ):
Universal_dependencies/bm_crb
構成の説明: UD バンバラ ツリーバンクは、Universal Dependencies でネイティブに注釈が付けられた Corpus Référence du Bambara のセクションです。
ダウンロードサイズ:
873.37 KiB
データセットサイズ:
1.25 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,026 |
- 例( tfds.as_dataframe ):
Universal_dependencies/eu_bdt
構成の説明: バスク UD ツリーバンクは、IXA NLP 研究グループによってバスク大学で作成されたバスク依存関係ツリーバンク (BDT) の一部からの自動変換に基づいています。ツリーバンクは 8.993 文 (121.443 トークン) で構成され、主に文学やジャーナリズムのテキストをカバーしています。
ダウンロードサイズ:
7.83 MiB
データセットのサイズ:
11.74 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,798 |
'test' | 1,799 |
'train' | 5,396 |
- 例( tfds.as_dataframe ):
Universal_dependencies/bej_nsc
構成の説明: 主にスーダン、エジプト、エリトリアで話されているアフリカ系アジア門の北クシ系支部である Beja の Universal Dependencies コーパス。
ダウンロードサイズ:
136.52 KiB
データセットサイズ:
168.15 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 56 |
- 例( tfds.as_dataframe ):
Universal_dependencies/be_hse
構成の説明: ベラルーシの UD ツリーバンクは、ロシア国民コーパスのベラルーシとロシアの並列サブコーパスに含まれるニュース テキストのサンプルに基づいています。
ダウンロードサイズ:
30.04 MiB
データセットのサイズ:
39.88 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,301 |
'test' | 1,077 |
'train' | 22,853 |
- 例( tfds.as_dataframe ):
universal_dependencies/bn_bru
構成の説明: BRU ベンガル語ツリーバンクは、Semantics Lab のメンバーによって、Rangpur の Begum Rokeya 大学で作成されました。
ダウンロードサイズ:
38.41 KiB
データセットサイズ:
51.42 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 56 |
- 例( tfds.as_dataframe ):
Universal_dependencies/bho_bhtb
構成説明: Bhojpuri UD Treebank (BHTB) v2.6 は、6,664 個のトークン (357 文) で構成されています。この Treebank は Universal Dependency treebank プロジェクトの一部です。当初は、ニューデリーのジャワハルラール ネルー大学で博士課程の研究中に私 (Atul) によって開始されました。 BHTB データには、依存関係スキーマによる構文注釈、および形態学的タグと見出し語が含まれています。このデータでは、インド標準局 (BIS) の品詞 (POS) タグセットに従って、XPOS に注釈が付けられています。
ダウンロードサイズ:
599.76 KiB
データセットサイズ:
817.23 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 357 |
- 例( tfds.as_dataframe ):
universal_dependencies/br_keb
構成の説明: UD Breton-KEB は、Universal Dependencies ガイドラインに従って手動で注釈が付けられた Breton のツリーバンクです。トークン化のガイドラインと形態学的注釈は、Apertium プロジェクトの一部としてリリースされた Breton の有限状態形態学的アナライザーから得られます。
ダウンロードサイズ:
663.63 KiB
データセットサイズ:
863.36 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 888 |
- 例( tfds.as_dataframe ):
universal_dependencies/bg_btb
構成の説明: UD_Bulgarian-BTB は、ブルガリア科学アカデミーの情報通信技術研究所で作成された HPSG ベースの BulTreeBank に基づいています。オリジナルは 215,000 トークン (15,000 文以上) で構成されています。
ダウンロードサイズ:
14.22 MiB
データセットサイズ:
20.01 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,115 |
'test' | 1,116 |
'train' | 8,907 |
- 例( tfds.as_dataframe ):
Universal_dependencies/bxr_bdt
構成の説明: UD Buryat ツリーバンクは、UD でネイティブに手動で注釈が付けられており、ニュースやいくつかのフィクションと共に、文法書の文章が含まれています。
ダウンロードサイズ:
710.23 KiB
データセットサイズ:
1018.12 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 908 |
'train' | 19 |
- 例( tfds.as_dataframe ):
Universal_dependencies/yue_hk
構成の説明: 映画の字幕と香港の立法手続きの広東語ツリーバンク (繁体字)。中国語-HK ツリーバンクと並行しています。
ダウンロードサイズ:
693.38 KiB
データセットサイズ:
1.04 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,004 |
- 例( tfds.as_dataframe ):
Universal_dependencies/ca_ancora
構成の説明: AnCora コーパスからのカタロニア語データ。
ダウンロードサイズ:
48.14 MiB
データセットサイズ:
64.03 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,709 |
'test' | 1,846 |
'train' | 13,123 |
- 例( tfds.as_dataframe ):
Universal_dependencies/ceb_gja
構成の説明: UD_Cebuano_GJA は、3 つの異なるソースからランダムに取得された注釈付きのセブアノ語サンプル文のコレクションです: ウェブサイト Tatoeba からのコミュニティ寄稿サンプル、Bunye & Yap によるセブアノ語文法書 (1971 年)、および Tanangkinsing のセブアノ語に関する参照文法 (2011 年)。このプロジェクトは現在進行中です。
ダウンロードサイズ:
99.30 KiB
データセットサイズ:
136.74 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 188 |
- 例( tfds.as_dataframe ):
Universal_dependencies/zh_cfl
構成の説明: Chinese-CFL UD ツリーバンクは、香港城市大学の Herman Leung と John Lee によるマイナーなマニュアル改訂を含む Keying Li によって手動で注釈が付けられています。これは、外国語としての北京語の学習者によって書かれたエッセイに基づいています。データは簡体字中国語です。
ダウンロードサイズ:
375.71 KiB
データセットサイズ:
558.45 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 451 |
- 例( tfds.as_dataframe ):
Universal_dependencies/zh_gsd
構成の説明: 繁体字中国語の Universal Dependencies Treebank は、Google によって注釈が付けられ、変換されました。
ダウンロードサイズ:
6.48 MiB
データセットのサイズ:
8.88 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 3,997 |
- 例( tfds.as_dataframe ):
Universal_dependencies/zh_gsdsimp
設定の説明: GSD (繁体字) データセットから変換され、手動で修正された簡体字中国語 Universal Dependencies データセット。
ダウンロードサイズ:
6.48 MiB
データセットのサイズ:
8.88 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 3,997 |
- 例( tfds.as_dataframe ):
Universal_dependencies/zh_hk
構成の説明: 広東語-HK ツリーバンクと並行して、映画の字幕と香港の立法手続きの繁体字中国語ツリーバンク。
ダウンロードサイズ:
482.85 KiB
データセットサイズ:
779.66 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,004 |
- 例( tfds.as_dataframe ):
Universal_dependencies/zh_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
1.53 MiB
データセットのサイズ:
1.95 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
Universal_dependencies/ckt_hse
構成の説明: このデータは、Chukchi の Amguema バリアントの方言コーパスである Chuklang プロジェクトのマルチメディア注釈付きコーパスからのコーパスの手動注釈です。
ダウンロードサイズ:
793.16 KiB
データセットサイズ:
828.50 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,004 |
- 例( tfds.as_dataframe ):
Universal_dependencies/lzh_kyoto
構成の説明: 京都大学人文科学研究所によって注釈および変換された古典中国語の Universal Dependencies ツリーバンク。
ダウンロードサイズ:
26.86 MiB
データセットのサイズ:
39.40 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 5,687 |
'test' | 4,932 |
'train' | 48,569 |
- 例( tfds.as_dataframe ):
universal_dependencies/cop_scriptorium
構成の説明: UD コプトには、聖書のテキスト、説教、手紙、聖人伝を含む、手動で注釈が付けられたサーヒド コプトのテキストが含まれています。
ダウンロードサイズ:
4.73 MiB
データセットサイズ:
6.12 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 381 |
'test' | 403 |
'train' | 1,227 |
- 例( tfds.as_dataframe ):
universal_dependencies/hr_set
構成の説明: クロアチア語の UD ツリーバンクは、SETimes-HR コーパスの拡張である hr500k コーパスに基づいています。
ダウンロードサイズ:
14.41 MiB
データセットのサイズ:
20.43 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 960 |
'test' | 1,136 |
'train' | 6,914 |
- 例( tfds.as_dataframe ):
Universal_dependencies/cs_cac
構成の説明: UD_Czech-CAC ツリーバンクは、プラハのカレル大学で作成されたチェコのアカデミック コーパス 2.0 (CAC; Český akademický korpus; ČAK) に基づいています。
ダウンロードサイズ:
53.72 MiB
データセットのサイズ:
73.74 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 603 |
'test' | 628 |
'train' | 23,478 |
- 例( tfds.as_dataframe ):
Universal_dependencies/cs_cltt
構成の説明: UD_Czech-CLTT ツリーバンクは、プラハのカレル大学で作成されたチェコ語の法律テキスト ツリーバンク 1.0 に基づいています。
ダウンロードサイズ:
3.57 MiB
データセットのサイズ:
4.73 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 129 |
'test' | 136 |
'train' | 860 |
- 例( tfds.as_dataframe ):
Universal_dependencies/cs_fictree
構成の説明: FicTree は、チェコのフィクションのツリーバンクであり、UD 形式に自動的に変換されます。ツリーバンクは、プラハのカレル大学で建設されました。
ダウンロードサイズ:
16.65 MiB
データセットのサイズ:
23.29 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,309 |
'test' | 1,291 |
'train' | 10,160 |
- 例( tfds.as_dataframe ):
Universal_dependencies/cs_pdt
構成の説明: Czech-PDT UD ツリーバンクは、プラハのカレル大学で作成されたプラハ ディペンデンシー ツリーバンク 3.0 (PDT) に基づいています。
ダウンロードサイズ:
164.29 MiB
データセットサイズ:
224.30 MiB
自動キャッシュ(ドキュメント): はい (開発、テスト)、
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'dev' | 9,270 |
'test' | 10,148 |
'train' | 68,495 |
- 例( tfds.as_dataframe ):
Universal_dependencies/cs_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
2.14 MiB
データセットサイズ:
2.76 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
Universal_dependencies/da_ddt
構成の説明: デンマークの UD ツリーバンクは、デンマークの Dependency Treebank を変換したものです。
ダウンロードサイズ:
6.13 MiB
データセットサイズ:
9.15 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 564 |
'test' | 565 |
'train' | 4,383 |
- 例( tfds.as_dataframe ):
universal_dependencies/nl_alpino
構成の説明: このコーパスは、フローニンゲン大学で Alpino 注釈ツールとガイドラインを使用して注釈が付けられたさまざまなツリーバンクからのサンプルで構成されています。
ダウンロードサイズ:
15.98 MiB
データセットサイズ:
21.03 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 718 |
'test' | 596 |
'train' | 12,289 |
- 例( tfds.as_dataframe ):
universal_dependencies/nl_lassysmall
構成の説明: このコーパスには、Lassy Small Treebank の Wikipedia セクションからの文が含まれています。 Universal Dependency アノテーションは、Lassy の元のアノテーションから自動的に生成されました。
ダウンロードサイズ:
7.61 MiB
データセットのサイズ:
9.86 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 676 |
'test' | 876 |
'train' | 5,789 |
- 例( tfds.as_dataframe ):
Universal_dependencies/en_esl
構成の説明: UD 英語-ESL / 学習者英語 (TLE) のツリーバンクには、Cambridge Learner Corpus First Certificate in English (FCE) データセットから抽出された 5,124 の English as a Second Language (ESL) 文の手動 POS タグと依存関係の注釈が含まれています。
ダウンロードサイズ:
3.20 MiB
データセットサイズ:
4.72 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 4,124 |
- 例( tfds.as_dataframe ):
Universal_dependencies/en_ewt
構成の説明: 英語の Web Treebank LDC2012T13 ( https://catalog.ldc.upenn.edu/LDC2012T13 ) のソース資料に基づいて構築された、英語のゴールド スタンダード Universal Dependencies Corpus。
ダウンロードサイズ:
16.37 MiB
データセットのサイズ:
23.60 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,001 |
'test' | 2,077 |
'train' | 12,543 |
- 例( tfds.as_dataframe ):
Universal_dependencies/en_gum
構成の説明: GUM コーパス ( https://corpling.uis.georgetown.edu/gum/ ) からの Universal Dependencies 構文注釈。
ダウンロードサイズ:
13.81 MiB
データセットサイズ:
18.21 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,117 |
'test' | 1,096 |
'train' | 6,917 |
- 例( tfds.as_dataframe ):
universal_dependencies/en_gumreddit
構成の説明: GUM コーパスの Reddit 部分からの Universal Dependencies 構文注釈 ( https://corpling.uis.georgetown.edu/gum/ )
ダウンロードサイズ:
1.47 MiB
データセットサイズ:
2.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 104 |
'test' | 105 |
'train' | 686 |
- 例( tfds.as_dataframe ):
universal_dependencies/en_lines
構成の説明: UD English_LinES は、最初に Universal Dependencies に自動的に変換され、次に部分的にレビューされた元の依存関係アノテーションを持つ LineES Parallel Treebank の英語版です。その内容は、文献、オンライン マニュアル、および Europarl データをカバーしています。
ダウンロードサイズ:
5.27 MiB
データセットのサイズ:
7.54 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,032人 |
'test' | 1,035 |
'train' | 3,176 |
- 例( tfds.as_dataframe ):
Universal_dependencies/en_atis
構成の説明: UD Atis Treebank は、Atis (Airline Travel Informations) データセット内の文で構成される、手動で注釈が付けられたツリーバンクです。このデータセットには、自動照会システムでフライト情報を求める人々の音声の書き起こしが含まれています。
ダウンロードサイズ:
3.06 MiB
データセットサイズ:
4.76 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 572 |
'test' | 586 |
'train' | 4,274 |
- 例( tfds.as_dataframe ):
universal_dependencies/en_partut
構成の説明: UD_English-ParTUT は、トリノ大学で開発された多言語並列ツリーバンクの変換であり、講演、法律文書、ウィキペディアの記事など、さまざまなテキスト ジャンルで構成されています。
ダウンロードサイズ:
2.59 MiB
データセットのサイズ:
3.65 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 156 |
'test' | 153 |
'train' | 1,781 |
- 例( tfds.as_dataframe ):
universal_dependencies/en_pronouns
構成の説明: UD English-Pronouns は、代名詞の識別をより正確にし、性別間でよりバランスの取れた分布にするために作成されたデータセットです。このデータセットは、当初、独立属格代名詞 'hers'、(独立) 'his'、(単数) 'theirs'、'mine'、および (単数) 'yours' をターゲットにしています。
ダウンロードサイズ:
138.08 KiB
データセットサイズ:
186.09 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 285 |
- 例( tfds.as_dataframe ):
Universal_dependencies/en_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの英語部分です ( http://universaldependencies.org/conll17/ )。
ダウンロードサイズ:
1.28 MiB
データセットサイズ:
1.82 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
Universal_dependencies/myv_jr
構成の説明: UD Erzya は、Erzya 言語のテキストのオリジナル アノテーション (CoNLL-U) です。もともとは、Erzya でオリジナルを書いている多くのフィクション作者からのサンプルで構成されています。
ダウンロードサイズ:
1.88 MiB
データセットのサイズ:
2.47 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,714 |
- 例( tfds.as_dataframe ):
universal_dependencies/et_edt
構成の説明: UD エストニア語は、エストニア語依存関係ツリーバンク (EDT) の変換バージョンであり、元々は制約文法 (CG) 注釈スキームで注釈が付けられており、フィクション、新聞テキスト、科学テキストのジャンルで構成されています。ツリーバンクには、30,972 本の木、437,769 個のトークンが含まれています。
ダウンロードサイズ:
31.09 MiB
データセットのサイズ:
45.98 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 3,127 |
'test' | 3,214 |
'train' | 24,632 |
- 例( tfds.as_dataframe ):
ユニバーサル依存関係/et_ewt
構成説明: UD EWT ツリーバンクは、さまざまなジャンルの新しいメディアで構成されています。ツリーバンクには、4,493 本の木、56,399 トークンが含まれています。
ダウンロードサイズ:
5.35 MiB
データセットサイズ:
8.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 833 |
'test' | 913 |
'train' | 4,579 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fo_farpahc
構成の説明: UD_Icelandic-FarPaHC は、Faroese 解析済み歴史コーパス (FarPaHC) を Universal Dependencies スキームに変換したものです。変換は UDConverter を使用して行われました。
ダウンロードサイズ:
2.09 MiB
データセットサイズ:
2.84 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 300 |
'test' | 301 |
'train' | 1,020 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fo_oft
構成の説明: これは、フェロー語ウィキペディアに基づいたフェロー語のツリーバンクです。
ダウンロードサイズ:
783.86 KiB
データセットサイズ:
1.07 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,208 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fi_ftb
構成の説明: FinnTreeBank 1 は、VISK から手動で注釈を付けた文法例で構成されています。 FinnTreeBank 1 の UD バージョンは、スクリプトを使用してネイティブ アノテーション モデルから変換され、後で手動で修正されました。
ダウンロードサイズ:
12.52 MiB
データセットのサイズ:
18.45 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,875 |
'test' | 1,867 |
'train' | 14,981 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fi_ood
構成の説明: Finnish-OOD は、UD スキームにネイティブに注釈が付けられた Finnish-TDT の外部ドメイン外テスト セットです。
ダウンロードサイズ:
1.40 MiB
データセットサイズ:
2.11 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 2,122 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fi_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
1.34 MiB
データセットサイズ:
1.80 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fi_tdt
構成の説明: UD_Finnish-TDT は、多数のジャンルをカバーする一般的なフィンランド語の広範な依存関係ツリーバンクである Turku 依存関係ツリーバンク (TDT) に基づいています。 UD への変換に続いて、大規模な手動チェックと修正が行われ、ツリーバンクは UD ガイドラインに厳密に従っています。
ダウンロードサイズ:
15.84 MiB
データセットサイズ:
23.17 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,364 |
'test' | 1,555 |
'train' | 12,217 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_fqb
構成の説明: コーパスUD_French-FQBは、完全に質問で構成されたコーパスであるフランス語 QuestionBank v1 の自動変換です。
ダウンロードサイズ:
1.47 MiB
データセットサイズ:
2.32 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 2,289 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_ftb
構成の説明: フランスのツリーバンク (Abeillé et al., 2003) の Universal Dependency バージョン (以下、UD_French-FTB) は、新聞ル モンドの文のツリーバンクであり、最初に形態学的情報とフレーズ構造で手動で注釈が付けられ、次に次のように変換されます。 Universal Dependencies アノテーション スキーム。
ダウンロードサイズ:
29.49 MiB
データセットサイズ:
44.93 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,235 |
'test' | 2,541 |
'train' | 14,759 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_gsd
構成の説明: UD_French-GSDは、2015 年にユニバーサル依存ツリーバンク v2.0 ( https://github.com/ryanmcd/uni-dep-tb ) のコンテンツ ヘッド バージョンから変換されました。 2015年以降、以前のソースとは独立して更新されています。
ダウンロードサイズ:
24.38 MiB
データセットのサイズ:
35.77 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,476 |
'test' | 416 |
'train' | 14,449 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_partut
構成の説明: UD_French-ParTUT は、トリノ大学で開発された多言語並列ツリーバンクの変換であり、講演、法律文書、ウィキペディアの記事など、さまざまなテキスト ジャンルで構成されています。
ダウンロードサイズ:
1.74 MiB
データセットのサイズ:
2.44 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 107 |
'test' | 110 |
'train' | 803 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_rhapsodie
構成の説明: 話されているフランス語の Universal Dependencies コーパス。
ダウンロードサイズ:
3.00 MiB
データセットのサイズ:
4.10 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,082 |
'test' | 840 |
'train' | 1,288 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_parisstories
構成の説明: Paris Stories は、2017 年から 2021 年の間に、ソルボンヌ ヌーベルの言語学の学生によって収集および転写され、計算言語学の複数の修士号 (Inalco、Paris Nanterre、Sorbonne Nouvelle) の学生によって修正された口頭フランス語のコーパスです。パリ地方に住むスピーカーからの対話。
ダウンロードサイズ:
1.97 MiB
データセットのサイズ:
2.70 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 547 |
'train' | 1,216 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
1.71 MiB
データセットサイズ:
2.24 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
Universal_dependencies/fr_sequoia
構成の説明: UD_French-Sequoia は、Sequoia Treebank コーパスのフランス語 Sequoia コーパスの自動変換です。
ダウンロードサイズ:
4.21 MiB
データセットのサイズ:
6.18 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 412 |
'test' | 456 |
'train' | 2,231 |
- 例( tfds.as_dataframe ):
universal_dependencies/gl_ctg
構成の説明: Galician UD ツリーバンクは、TALG NLP 研究グループによってビーゴ大学で作成された Galician Technical Corpus ( http://sli.uvigo.gal/CTG ) の自動解析に基づいています。
ダウンロードサイズ:
7.85 MiB
データセットサイズ:
10.81 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 860 |
'test' | 861 |
'train' | 2,272 |
- 例( tfds.as_dataframe ):
universal_dependencies/gl_treegal
構成の説明: Galician-TreeGal は、LyS Group (Universidade da Coruña) で開発された Galician のツリーバンクです。
ダウンロードサイズ:
1.66 MiB
データセットサイズ:
2.35 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 400 |
'train' | 600 |
- 例( tfds.as_dataframe ):
Universal_dependencies/de_gsd
構成の説明: ドイツ語の UD は、ユニバーサル依存ツリーバンク v2.0 (レガシー) のコンテンツ ヘッド バージョンから変換されます。
ダウンロードサイズ:
20.69 MiB
データセットサイズ:
29.60 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 799 |
'test' | 977 |
'train' | 13,814 |
- 例( tfds.as_dataframe ):
universal_dependencies/de_hdt
構成の説明: UD German-HDT は、形態学的および構文的に文に注釈を付けるための標準と、制約ベースのパーサーを組み合わせた手動の注釈を通じて、ハンブルグ大学で作成されたハンブルグ依存関係ツリーバンクの変換です。
ダウンロードサイズ:
242.97 MiB
データセットサイズ:
347.93 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'dev' | 18,434 |
'test' | 18,459 |
'train' | 153,035 |
- 例( tfds.as_dataframe ):
universal_dependencies/de_lit
構成の説明: このツリーバンクは、ドイツ文学史のテキストを収集することを目的としています。現在、初期ロマン主義の断片、つまり主に芸術、美、および関連トピックに関する哲学的問題を扱った格言のようなテキストをホストしています。
ダウンロードサイズ:
1.97 MiB
データセットのサイズ:
2.49 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,922 |
- 例( tfds.as_dataframe ):
Universal_dependencies/de_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
1.65 MiB
データセットサイズ:
2.20 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
Universal_dependencies/got_proiel
構成の説明: UD ゴシック ツリーバンクは、PROIEL ツリーバンクのゴシック データに基づいており、Wulfila の聖書翻訳で構成されています。
ダウンロードサイズ:
4.98 MiB
データセットのサイズ:
7.17 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 985 |
'test' | 1,029人 |
'train' | 3,387 |
- 例( tfds.as_dataframe ):
universal_dependencies/el_gdt
構成の説明: ギリシャ語の UD ツリーバンク ( UD_Greek -GDT) は、言語および音声処理研究所/Athena RC ( http://www.ilsp.gr )。
ダウンロードサイズ:
5.52 MiB
データセットのサイズ:
7.49 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 403 |
'test' | 456 |
'train' | 1,662 |
- 例( tfds.as_dataframe ):
Universal_dependencies/gub_tudet
構成説明: UD_Guajajara-TuDeT は Guajajara の注釈付き文のコレクションです。文は、言語の説明、短編小説、辞書、新約聖書の翻訳など、複数の情報源に由来しています。 Lorena Martín Rodríguez と Fabrício Ferraz Gerardi による文の注釈とドキュメント。
ダウンロードサイズ:
683.38 KiB
データセットサイズ:
738.09 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,126 |
- 例( tfds.as_dataframe ):
Universal_dependencies/gn_oldtudet
構成の説明: UD_Guarani-OldTuDeT は、Old Guarani の注釈付きテキストのコレクションです。この言語で知られているすべての情報源には注釈が付けられています: カテシズム、文法 (17 世紀と 18 世紀)、辞書の文章、およびその他のテキスト。 Fabrício Ferraz Gerardi と Lorena Martín Rodríguez による文の注釈とドキュメント。
ダウンロードサイズ:
18.93 KiB
データセットサイズ:
24.71 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 59 |
- 例( tfds.as_dataframe ):
universal_dependencies/he_htb
構成の説明: ヘブライ語用の Universal Dependencies Corpus。
ダウンロードサイズ:
11.64 MiB
データセットのサイズ:
16.10 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 484 |
'test' | 491 |
'train' | 5,241 |
- 例( tfds.as_dataframe ):
Universal_dependencies/he_iahltwiki
構成の説明: IAHLT UD ヘブライ語ツリーバンクのウィキペディア セクションの公開サブセット ( https://www.iahlt.org/ )
ダウンロードサイズ:
10.30 MiB
データセットのサイズ:
14.16 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 348 |
'test' | 393 |
'train' | 4,298 |
- 例( tfds.as_dataframe ):
universal_dependencies/qfn_fame
構成の説明: UD_Frisian_Dutch-Fame は、FAME から 400 の文を選択したものです! Yilmaz らによる音声コーパス。 (2016a、2016b)。ツリーバンクには、UD スキームを使用して手動で注釈が付けられます。
ダウンロードサイズ:
232.57 KiB
データセットサイズ:
290.88 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 400 |
- 例( tfds.as_dataframe ):
universal_dependencies/qhe_hiencs
構成の説明: ヒンディー語と英語のコード切り替えツリーバンクは、Twitter でのヒンディー語と英語の多言語話者 (主にインド人) のコード切り替えツイートに基づいています。ツリーバンクには、UD スキーマを使用して手動で注釈が付けられます。トレーニング セットと評価セットは、それぞれ UD v2 と v1 のガイドラインを使用して、異なるアノテーターによって個別にアノテーションが付けられました。評価セットは、UD v1 から v2 に自動的に変換されます。
ダウンロードサイズ:
893.15 KiB
データセットサイズ:
1.53 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 225 |
'test' | 225 |
'train' | 1,448 |
- 例( tfds.as_dataframe ):
universal_dependencies/hi_hdtb
構成の説明: Hindi UD ツリーバンクは、インドの IIIT ハイデラバードで作成された Hindi Dependency Treebank (HDTB) に基づいています。
ダウンロードサイズ:
49.18 MiB
データセットサイズ:
68.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,659 |
'test' | 1,684 |
'train' | 13,304 |
- 例( tfds.as_dataframe ):
Universal_dependencies/hi_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
2.20 MiB
データセットサイズ:
2.82 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
universal_dependencies/hu_szeged
構成の説明: ハンガリーの UD ツリーバンクは、セゲドの依存関係ツリーバンク (Vincze et al. 2010) から派生しています。
ダウンロードサイズ:
2.92 MiB
データセットのサイズ:
4.20 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 441 |
'test' | 449 |
'train' | 910 |
- 例( tfds.as_dataframe ):
Universal_dependencies/is_modern
構成の説明: UD_Icelandic-Modern は、Icelandic Parsed Historical Corpus (IcePaHC) への最新の追加を Universal Dependencies スキームに変換したものです。
ダウンロードサイズ:
9.02 MiB
データセットのサイズ:
12.32 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 784 |
'test' | 768 |
'train' | 5,376 |
- 例( tfds.as_dataframe ):
Universal_dependencies/is_icepahc
構成の説明: UD_Icelandic-IcePaHC は、アイスランド語の解析済み歴史コーパス (IcePaHC) を Universal Dependencies スキームに変換したものです。変換は UDConverter を使用して行われました。
ダウンロードサイズ:
81.16 MiB
データセットのサイズ:
112.07 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 4,865 |
'test' | 5,157 |
'train' | 34,007 |
- 例( tfds.as_dataframe ):
Universal_dependencies/is_pud
構成の説明: Icelandic-PUD は、Parallel Universal Dependencies (PUD) ツリーバンクのアイスランド語部分です。
ダウンロードサイズ:
1.45 MiB
データセットサイズ:
1.89 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
Universal_dependencies/id_csui
構成の説明: UD インドネシア-CSUI は、Kethu という名前の Penn Treebank 形式のインドネシアの選挙区ツリーバンクからの変換であり、これも Dinakaramani らによって構築された選挙区ツリーバンクからの変換でした。 (2015)。ツリーバンクの 3 つのバージョンはすべてインドネシア大学のコンピューター サイエンス学部で作成されたため、このツリーバンクをインドネシア語-CSUI と名付けました。
ダウンロードサイズ:
1.62 MiB
データセットのサイズ:
1.97 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 374 |
'train' | 656 |
- 例( tfds.as_dataframe ):
Universal_dependencies/id_gsd
構成の説明: インドネシア語の UD は、ユニバーサル依存ツリーバンク v2.0 (レガシー) のコンテンツ ヘッド バージョンから変換されます。
ダウンロードサイズ:
9.15 MiB
データセットのサイズ:
11.25 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 559 |
'test' | 557 |
'train' | 4,482 |
- 例( tfds.as_dataframe ):
Universal_dependencies/id_pud
構成の説明: これは、生テキストからユニバーサル依存関係への多言語解析に関する CoNLL 2017 共有タスク用に作成された Parallel Universal Dependencies (PUD) ツリーバンクの一部です。
ダウンロードサイズ:
1.10 MiB
データセットサイズ:
1.44 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
universal_dependencies/ga_idt
構成の説明: 現代アイルランド語用の Universal Dependencies 4910 文のツリーバンク。
ダウンロードサイズ:
7.62 MiB
データセットのサイズ:
10.77 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 451 |
'test' | 454 |
'train' | 4,005 |
- 例( tfds.as_dataframe ):
universal_dependencies/ga_twittirish
構成の説明: 現代アイルランド語の 866 ツイートの Universal Dependencies ツリーバンク。
ダウンロードサイズ:
782.30 KiB
データセットサイズ:
1.13 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 866 |
- 例( tfds.as_dataframe ):
universal_dependencies/it_isdt
構成記述: UD アノテーション スキームに従ってアノテーションが付けられたイタリア語コーパスは、Evalita-2014 の依存関係解析共有タスク用にリリースされた ISDT (Italian Stanford Dependency Treebank) からの変換によって取得されました (Bosco et al. 2014)。
ダウンロードサイズ:
20.03 MiB
データセットサイズ:
29.18 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 564 |
'test' | 482 |
'train' | 13,121 |
- 例( tfds.as_dataframe ):
universal_dependencies/it_partut
構成の説明: UD_Italian-ParTUT は、トリノ大学で開発された多言語並列ツリーバンクの変換であり、講演、法律文書、ウィキペディアの記事など、さまざまなテキスト ジャンルで構成されています。
ダウンロードサイズ:
3.42 MiB
データセットのサイズ:
4.83 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 156 |
'test' | 153 |
'train' | 1,781 |
- 例( tfds.as_dataframe ):
universal_dependencies/it_postwita
構成の説明: PoSTWITA-UD は、Universal Dependencies で注釈が付けられたイタリア語のツイートのコレクションであり、NLP システムのトレーニングに利用して、ソーシャル メディア テキストでのパフォーマンスを向上させることができます。
ダウンロードサイズ:
7.27 MiB
データセットのサイズ:
10.47 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 670 |
'test' | 674 |
'train' | 5,368 |
- 例( tfds.as_dataframe ):
universal_dependencies/it_markit
構成の説明: 新しいのは MarkIT です: Marked Constructions のイタリア語ツリーバンク。 Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)
Download size :
2.48 MiB
Dataset size :
3.44 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 341 |
'test' | 341 |
'train' | 613 |
- 例( tfds.as_dataframe ):
universal_dependencies/it_valico
Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.
Download size :
520.45 KiB
Dataset size :
657.38 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 398 |
- 例( tfds.as_dataframe ):
universal_dependencies/it_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.56 MiB
Dataset size :
2.05 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- 例( tfds.as_dataframe ):
universal_dependencies/it_twittiro
Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.
Download size :
1.81 MiB
Dataset size :
2.51 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 144 |
'test' | 142 |
'train' | 1,138 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/it_vit
Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).
Download size :
16.77 MiB
Dataset size :
23.72 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 743 |
'test' | 1,067 |
'train' | 8,277 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_pudluw
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
4.37 MiB
Dataset size :
5.11 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_bccwjluw
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).
Download size :
59.20 MiB
Dataset size :
100.36 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 8,427 |
'test' | 7,881 |
'train' | 40,801 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_gsdluw
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.
Download size :
28.31 MiB
Dataset size :
33.97 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 507 |
'test' | 543 |
'train' | 7,050 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_bccwj
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).
Download size :
93.05 MiB
Dataset size :
157.62 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 8,427 |
'test' | 7,881 |
'train' | 40,801 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_gsd
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.
Download size :
43.21 MiB
Dataset size :
52.59 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 507 |
'test' | 543 |
'train' | 7,050 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_modern
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).
Download size :
2.06 MiB
Dataset size :
2.70 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 822 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies .
Download size :
6.48 MiB
Dataset size :
7.75 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/jv_csui
Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.
Download size :
141.40 KiB
Dataset size :
171.69 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 125 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/urb_tudet
Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.
Download size :
24.74 KiB
Dataset size :
33.60 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 83 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/xnr_kdtb
Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.
Download size :
132.92 KiB
Dataset size :
196.42 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 288 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/krl_kkpp
Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.
Download size :
220.80 KiB
Dataset size :
317.02 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 228 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kk_ktb
Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.
Download size :
833.88 KiB
Dataset size :
1.15 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,047 |
'train' | 31 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/arr_tudet
Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.
Download size :
174.70 KiB
Dataset size :
259.24 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 674 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kfm_aha
Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.
Download size :
6.14 KiB
Dataset size :
7.56 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 10 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/quc_iu
Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.
Download size :
823.85 KiB
データセットサイズ:
1.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,435 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/koi_uh
Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.
Download size :
99.43 KiB
Dataset size :
118.77 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 100 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kpv_ikdp
Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.
Download size :
202.88 KiB
Dataset size :
273.92 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 214 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kpv_lattice
Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.
Download size :
741.82 KiB
Dataset size :
989.46 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 663 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ko_gsd
Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.
Download size :
4.66 MiB
Dataset size :
6.31 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 950 |
'test' | 989 |
'train' | 4,400 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ko_kaist
Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.
Download size :
20.84 MiB
Dataset size :
27.97 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,066 |
'test' | 2,287 |
'train' | 23,010 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ko_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.92 MiB
Dataset size :
2.12 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kmr_mg
Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.
Download size :
747.04 KiB
Dataset size :
1.07 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 734 |
'train' | 20 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_ittb
Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.
Download size :
40.75 MiB
Dataset size :
55.54 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,101 |
'test' | 2,101 |
'train' | 22,775 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_udante
Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).
Download size :
4.87 MiB
Dataset size :
6.65 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 376 |
'test' | 419 |
'train' | 926 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_llct
Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.
Download size :
20.99 MiB
Dataset size :
27.77 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 850 |
'test' | 884 |
'train' | 7,289 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_perseus
Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1
Download size :
2.45 MiB
Dataset size :
3.53 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 939 |
'train' | 1,334 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_proiel
Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.
Download size :
17.58 MiB
Dataset size :
25.21 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,234 |
'test' | 1,260 |
'train' | 15,917 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lv_lvtb
Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.
Download size :
30.93 MiB
Dataset size :
42.49 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,957 |
'test' | 2,325 |
'train' | 12,521 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lij_glt
Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.
Download size :
426.33 KiB
Dataset size :
636.88 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 296 |
'train' | 20 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lt_alksnis
Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).
Download size :
6.68 MiB
Dataset size :
9.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 617 |
'test' | 684 |
'train' | 2,341 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lt_hse
Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.
Download size :
255.28 KiB
データセットサイズ:
1.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 153 |
'test' | 153 |
'train' | 153 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/olo_kkpp
Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.
Download size :
119.00 KiB
Dataset size :
165.75 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 106 |
'train' | 19 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/nds_lsdc
Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.
Download size :
209.01 KiB
Dataset size :
280.72 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 83 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/mt_mudt
Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.
Download size :
1.92 MiB
Dataset size :
2.67 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 433 |
'test' | 518 |
'train' | 1,123 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gv_cadhan
Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.
Download size :
1.26 MiB
Dataset size :
1.79 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 2,319 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/mr_ufal
Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.
Download size :
330.87 KiB
Dataset size :
496.00 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 46 |
'test' | 47 |
'train' | 373 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gun_dooley
Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.
Download size :
560.08 KiB
Dataset size :
859.37 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,046 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gun_thomas
Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.
Download size :
90.88 KiB
Dataset size :
120.86 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 98 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/mdf_jr
Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.
Download size :
343.96 KiB
Dataset size :
451.57 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 342 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/myu_tudet
Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.
Download size :
67.85 KiB
Dataset size :
83.48 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 158 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pcm_nsc
Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).
Download size :
16.99 MiB
Dataset size :
21.58 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 991 |
'test' | 972 |
'train' | 7,278 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/nyq_aha
Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.
Download size :
6.24 KiB
Dataset size :
7.72 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 10 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sme_giella
Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.
Download size :
1.78 MiB
Dataset size :
2.72 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 865 |
'train' | 2,257 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/no_bokmaal
Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
18.29 MiB
Dataset size :
27.60 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,409 |
'test' | 1,939 |
'train' | 15,696 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/no_nynorsk
Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
17.68 MiB
Dataset size :
26.46 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,890 |
'test' | 1,511 |
'train' | 14,174 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/no_nynorsklia
Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
3.19 MiB
Dataset size :
4.78 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 881 |
'test' | 957 |
'train' | 3,412 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/cu_proiel
Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.
Download size :
5.92 MiB
Dataset size :
8.33 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,073 |
'test' | 1,141 |
'train' | 4,124 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/fro_srcmf
Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).
Download size :
13.51 MiB
Dataset size :
18.54 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,887 |
'test' | 1,989 |
'train' | 14,153 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/orv_birchbark
Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.
Download size :
4.04 MiB
Dataset size :
4.72 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,054 |
'test' | 1,006 |
'train' | 1,045 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/orv_rnc
Config description :
UD_Old_Russian-RNC
is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.Download size :
2.95 MiB
Dataset size :
4.02 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 648 |
'train' | 422 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/orv_torot
Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.
Download size :
14.49 MiB
Dataset size :
20.13 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,852 |
'test' | 1,756 |
'train' | 13,336 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/otk_tonqq
Config description :
UD_Old_Turkish-Tonqq
is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.Download size :
10.44 KiB
Dataset size :
14.01 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 20 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/fa_perdt
Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).
Download size :
32.05 MiB
Dataset size :
43.48 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,456 |
'test' | 1,455 |
'train' | 26,196 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/fa_seraji
Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.
Download size :
9.43 MiB
Dataset size :
12.50 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 599 |
'test' | 600 |
'train' | 4,798 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pl_lfg
Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.
Download size :
14.18 MiB
Dataset size :
18.96 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,745 |
'test' | 1,727 |
'train' | 13,774 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pl_pdb
Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).
Download size :
34.66 MiB
Dataset size :
47.62 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,215 |
'test' | 2,215 |
'train' | 17,722 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pl_pud
Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re
Download size :
1.91 MiB
Dataset size :
2.52 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pt_bosque
Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.
Download size :
14.29 MiB
Dataset size :
20.41 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,172 |
'test' | 1,167 |
'train' | 7,018 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pt_gsd
Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).
Download size :
14.57 MiB
Dataset size :
20.34 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,204 |
'test' | 1,200 |
'train' | 9,615 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pt_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.48 MiB
Dataset size :
1.95 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_art
Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.
Download size :
44.38 KiB
Dataset size :
65.95 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 50 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_nonstandard
Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0
Download size :
48.00 MiB
Dataset size :
66.84 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,052 |
'test' | 1,052 |
'train' | 24,121 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_rrt
Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.
Download size :
16.38 MiB
Dataset size :
22.96 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 752 |
'test' | 729 |
'train' | 8,043 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_simonero
Config description : SiMoNERo is a medical corpus of contemporary Romanian.
Download size :
11.36 MiB
Dataset size :
15.68 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 443 |
'test' | 491 |
'train' | 3,747 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_gsd
Config description : Russian Universal Dependencies Treebank annotated and converted by Google.
Download size :
8.42 MiB
Dataset size :
11.51 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 579 |
'test' | 601 |
'train' | 3,850 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.78 MiB
Dataset size :
2.26 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_syntagrus
Config description : Russian data from the SynTagRus corpus.
Download size :
97.99 MiB
Dataset size :
139.66 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 6,584 |
'test' | 6,491 |
'train' | 48,814 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_taiga
Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.
Download size :
18.12 MiB
Dataset size :
24.32 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 946 |
'test' | 881 |
'train' | 16,045 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sa_ufal
Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.
Download size :
414.72 KiB
Dataset size :
407.83 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 230 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sa_vedic
Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.
Download size :
1.95 MiB
Dataset size :
3.14 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,473 |
'train' | 2,524 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gd_arcosg
Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).
Download size :
5.07 MiB
Dataset size :
7.20 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 655 |
'test' | 545 |
'train' | 3,539 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sr_set
Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.
Download size :
7.07 MiB
Dataset size :
10.04 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 536 |
'test' | 520 |
'train' | 3,328 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sms_giellagas
Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.
Download size :
216.27 KiB
Dataset size :
299.21 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 218 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sk_snk
Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.
Download size :
9.55 MiB
Dataset size :
13.87 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,060 |
'test' | 1,061 |
'train' | 8,483 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sl_ssj
Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.
Download size :
19.82 MiB
Dataset size :
28.72 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,250 |
'test' | 1,282 |
'train' | 10,903 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sl_sst
Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.
Download size :
2.53 MiB
Dataset size :
3.88 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,110 |
'train' | 2,078 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/soj_aha
Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.
Download size :
4.47 KiB
Dataset size :
5.58 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 8 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ajp_madar
Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.
Download size :
42.16 KiB
Dataset size :
65.64 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 100 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/es_ancora
Config description : Spanish data from the AnCora corpus.
Download size :
50.23 MiB
Dataset size :
66.53 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,654 |
'test' | 1,721 |
'train' | 14,287 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/es_gsd
Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).
Download size :
24.86 MiB
Dataset size :
36.42 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,400 |
'test' | 426 |
'train' | 14,187 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/es_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies .
Download size :
1.60 MiB
Dataset size :
2.11 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/swl_sslc
Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.
Download size :
79.78 KiB
Dataset size :
122.04 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 82 |
'test' | 34 |
'train' | 87 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sv_lines
Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.
Download size :
6.91 MiB
Dataset size :
9.18 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,032 |
'test' | 1,035 |
'train' | 3,176 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sv_pud
Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.
Download size :
1.64 MiB
Dataset size :
2.13 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sv_talbanken
Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.
Download size :
8.08 MiB
Dataset size :
11.40 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 504 |
'test' | 1,219 |
'train' | 4,303 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gsw_uzh
Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.
Download size :
58.28 KiB
Dataset size :
86.61 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 100 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tl_trg
Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.
Download size :
59.91 KiB
Dataset size :
84.14 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 128 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tl_ugnayan
Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.
Download size :
53.91 KiB
Dataset size :
76.16 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 94 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ta_mwtt
Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.
Download size :
394.18 KiB
Dataset size :
499.94 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 534 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ta_ttb
Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.
Download size :
1.68 MiB
Dataset size :
2.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 80 |
'test' | 120 |
'train' | 400 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/te_mtg
Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.
Download size :
628.67 KiB
Dataset size :
866.20 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 131 |
'test' | 146 |
'train' | 1,051 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/th_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.53 MiB
Dataset size :
1.85 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tpn_tudet
Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.
Download size :
293.55 KiB
Dataset size :
371.48 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 546 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/qtd_sagt
Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.
Download size :
2.78 MiB
Dataset size :
4.28 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 801 |
'test' | 805 |
'train' | 578 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_atis
Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.
Download size :
3.26 MiB
Dataset size :
5.09 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 572 |
'test' | 586 |
'train' | 4,274 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_tourism
Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.
Download size :
6.48 MiB
Dataset size :
11.24 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 2,166 |
'test' | 2,191 |
'train' | 15,476 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_kenet
Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.
Download size :
12.16 MiB
Dataset size :
19.00 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 1,646 |
'test' | 1,643 |
'train' | 15,398 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_penn
Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)
Download size :
12.29 MiB
Dataset size :
18.82 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 622 |
'test' | 924 |
'train' | 14,850 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_framenet
Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.
Download size :
1.43 MiB
Dataset size :
2.28 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 205 |
'test' | 205 |
'train' | 2,288 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_boun
Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.
Download size :
9.07 MiB
Dataset size :
13.24 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 979 |
'test' | 979 |
'train' | 7,803 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_gb
Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.
Download size :
1.41 MiB
Dataset size :
2.02 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 2,880 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_imst
Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).
Download size :
4.51 MiB
Dataset size :
6.70 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 988 |
'test' | 983 |
'train' | 3,664 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.29 MiB
Dataset size :
1.65 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 1,000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/uk_iu
Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]
Download size :
16.54 MiB
Dataset size :
21.99 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 672 |
'test' | 892 |
'train' | 5,496 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/hsb_ufal
Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.
Download size :
762.63 KiB
Dataset size :
1.11 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 623 |
'train' | 23 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ur_udtb
Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.
Download size :
15.16 MiB
Dataset size :
21.57 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 552 |
'test' | 535 |
'train' | 4,043 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ug_udt
Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.
Download size :
3.30 MiB
Dataset size :
4.59 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 900 |
'test' | 900 |
'train' | 1,656 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/vi_vtb
Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).
Download size :
1.96 MiB
Dataset size :
2.81 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 800 |
'test' | 800 |
'train' | 1,400 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/wbp_ufal
Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.
Download size :
37.58 KiB
Dataset size :
47.36 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 55 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/cy_ccg
Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.
Download size :
2.28 MiB
Dataset size :
3.06 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 953 |
'train' | 976 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/hy_armtdp
Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.
Download size :
6.56 MiB
Dataset size :
8.50 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 249 |
'test' | 277 |
'train' | 1,974 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/wo_wtb
Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.
Download size :
2.65 MiB
Dataset size :
3.78 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'dev' | 449 |
'test' | 470 |
'train' | 1,188 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sjo_xdt
Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.
Download size :
1.50 MiB
Dataset size :
1.74 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 810 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sah_yktdt
Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis
Download size :
51.76 KiB
Dataset size :
61.70 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 96 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/yo_ytb
Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.
Download size :
554.64 KiB
Dataset size :
767.54 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 318 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ess_sli
Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).
Download size :
302.87 KiB
Dataset size :
410.25 KiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 309 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.