- Mô tả :
Các phụ thuộc phổ quát (UD) là một khuôn khổ cho chú thích nhất quán về ngữ pháp (các phần của lời nói, các đặc điểm hình thái và các phụ thuộc cú pháp) trên các ngôn ngữ khác nhau của con người. UD là một nỗ lực của cộng đồng mở với hơn 300 người đóng góp tạo ra hơn 200 ngân hàng cây bằng hơn 100 ngôn ngữ. Nếu bạn chưa quen với UD, bạn nên bắt đầu bằng cách đọc phần đầu tiên của phần Giới thiệu ngắn và sau đó duyệt qua các hướng dẫn chú thích.
Trang chủ : https://universaldependencies.org/
Mã nguồn :
tfds.datasets.universal_dependencies.Builder
Phiên bản :
-
1.0.0
: Bản phát hành ban đầu, tương ứng với Universal Dependencies 2.10. -
1.0.1
(mặc định): Tên cấu hình được cập nhật.
-
Cấu trúc tính năng :
FeaturesDict({
'deprel': Sequence(Text(shape=(), dtype=string)),
'deps': Sequence(Text(shape=(), dtype=string)),
'feats': Sequence(Text(shape=(), dtype=string)),
'head': Sequence(Text(shape=(), dtype=string)),
'idx': Text(shape=(), dtype=string),
'lemmas': Sequence(Text(shape=(), dtype=string)),
'misc': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'tokens': Sequence(Text(shape=(), dtype=string)),
'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
'xpos': Sequence(Text(shape=(), dtype=string)),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
trục xuất | Trình tự (Văn bản) | (Không có,) | sợi dây | |
người đẹp | Trình tự (Văn bản) | (Không có,) | sợi dây | |
chiến công | Trình tự (Văn bản) | (Không có,) | sợi dây | |
cái đầu | Trình tự (Văn bản) | (Không có,) | sợi dây | |
idx | Chữ | sợi dây | ||
bổ đề | Trình tự (Văn bản) | (Không có,) | sợi dây | |
linh tinh | Trình tự (Văn bản) | (Không có,) | sợi dây | |
chữ | Chữ | sợi dây | ||
mã thông báo | Trình tự (Văn bản) | (Không có,) | sợi dây | |
upos | Trình tự (Nhãn lớp) | (Không có,) | int64 | |
xpos | Trình tự (Văn bản) | (Không có,) | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@misc{11234/1-4758,
title = {Universal Dependencies 2.10},
author = {Zeman, Daniel and Nivre, Joakim and Abrams, Mitchell and Ackermann, Elia and Aepli, No{"e}mi and Aghaei, Hamid and Agi{'c}, {v Z}eljko and Ahmadi, Amir and Ahrenberg, Lars and Ajede, Chika Kennedy and Aleksandravi{v c}i{=u}te, Gabriele and Alfina, Ika and Algom, Avner and Andersen, Erik and Antonsen, Lene and Aplonova, Katya and Aquino, Angelina and Aragon, Carolina and Aranes, Glyd and Aranzabe, Maria Jesus and Arican, Bilge Nas and Arnard{'o}ttir, { H}{'o}runn and Arutie, Gashaw and Arwidarasti, Jessica Naraiswari and Asahara, Masayuki and Aslan, Deniz Baran and Asmazoglu, Cengiz and Ateyah, Luma and Atmaca, Furkan and Attia, Mohammed and Atutxa, Aitziber and Augustinus, Liesbeth and Badmaeva, Elena and Balasubramani, Keerthana and Ballesteros, Miguel and Banerjee, Esha and Bank, Sebastian and Barbu Mititelu, Verginica and Barkarson, Starkaður and Basile, Rodolfo and Basmov, Victoria and Batchelor, Colin and Bauer, John and Bedir, Seyyit Talha and Bengoetxea, Kepa and Ben Moshe, Yifat and Berk, G{"o}zde and Berzak, Yevgeni and Bhat, Irshad Ahmad and Bhat, Riyaz Ahmad and Biagetti, Erica and Bick, Eckhard and Bielinskiene, Agne and Bjarnad{'o}ttir, Krist{'i}n and Blokland, Rogier and Bobicev, Victoria and Boizou, Lo{"i}c and Borges V{"o}lker, Emanuel and B{"o}rstell, Carl and Bosco, Cristina and Bouma, Gosse and Bowman, Sam and Boyd, Adriane and Braggaar, Anouck and Brokaite, Kristina and Burchardt, Aljoscha and Candito, Marie and Caron, Bernard and Caron, Gauthier and Cassidy, Lauren and Cavalcanti, Tatiana and Cebiroglu Eryigit, G{"u}l{s}en and Cecchini, Flavio Massimiliano and Celano, Giuseppe G. A. and {C}{'e}pl{"o}, Slavom{'i}r and Cesur, Neslihan and Cetin, Savas and {C}etinoglu, {"O}zlem and Chalub, Fabricio and Chauhan, Shweta and Chi, Ethan and Chika, Taishi and Cho, Yongseok and Choi, Jinho and Chun, Jayeol and Chung, Juyeon and Cignarella, Alessandra T. and Cinkov{'a}, Silvie and Collomb, Aur{'e}lie and {C}{"o}ltekin, {C}a{g}ri and Connor, Miriam and Corbetta, Daniela and Courtin, Marine and Cristescu, Mihaela and Daniel, Philemon and Davidson, Elizabeth and Dehouck, Mathieu and de Laurentiis, Martina and de Marneffe, Marie-Catherine and de Paiva, Valeria and Derin, Mehmet Oguz and de Souza, Elvis and Diaz de Ilarraza, Arantza and Dickerson, Carly and Dinakaramani, Arawinda and Di Nuovo, Elisa and Dione, Bamba and Dirix, Peter and Dobrovoljc, Kaja and Dozat, Timothy and Droganova, Kira and Dwivedi, Puneet and Eckhoff, Hanne and Eiche, Sandra and Eli, Marhaba and Elkahky, Ali and Ephrem, Binyam and Erina, Olga and Erjavec, Toma{v z} and Etienne, Aline and Evelyn, Wograine and Facundes, Sidney and Farkas, Rich{'a}rd and Favero, Federica and Ferdaousi, Jannatul and Fernanda, Mar{'i}lia and Fernandez Alcalde, Hector and Foster, Jennifer and Freitas, Cl{'a}udia and Fujita, Kazunori and Gajdo{v s}ov{'a}, Katar{'i}na and Galbraith, Daniel and Gamba, Federica and Garcia, Marcos and G{"a}rdenfors, Moa and Garza, Sebastian and Gerardi, Fabr{'i}cio Ferraz and Gerdes, Kim and Ginter, Filip and Godoy, Gustavo and Goenaga, Iakes and Gojenola, Koldo and G{"o}kirmak, Memduh and Goldberg, Yoav and G{'o}mez Guinovart, Xavier and Gonz{'a}lez Saavedra, Berta and Griciute, Bernadeta and Grioni, Matias and Grobol, Lo{"i}c and Gruzitis, Normunds and Guillaume, Bruno and Guillot-Barbance, C{'e}line and G{"u}ng{"o}r, Tunga and Habash, Nizar and Hafsteinsson, Hinrik and Hajic, Jan and Hajic jr., Jan and H{"a}m{"a}l{"a}inen, Mika and Ha My, Linh and Han, Na-Rae and Hanifmuti, Muhammad Yudistira and Harada, Takahiro and Hardwick, Sam and Harris, Kim and Haug, Dag and Heinecke, Johannes and Hellwig, Oliver and Hennig, Felix and Hladk{'a}, Barbora and Hlav{'a}{v c}ov{'a}, Jaroslava and Hociung, Florinel and Hohle, Petter and Hwang, Jena and Ikeda, Takumi and Ingason, Anton Karl and Ion, Radu and Irimia, Elena and Ishola, {O}l{'a}j{'i}d{'e} and Ito, Kaoru and Jannat, Siratun and Jel{'i}nek, Tom{'a}{v s} and Jha, Apoorva and Johannsen, Anders and J{'o}nsd{'o}ttir, Hildur and Jorgensen, Fredrik and Juutinen, Markus and K, Sarveswaran and Ka{c s}ikara, H{"u}ner and Kaasen, Andre and Kabaeva, Nadezhda and Kahane, Sylvain and Kanayama, Hiroshi and Kanerva, Jenna and Kara, Neslihan and Karah{'o}ǧa, Ritv{'a}n and Katz, Boris and Kayadelen, Tolga and Kenney, Jessica and Kettnerov{'a}, V{'a}clava and Kirchner, Jesse and Klementieva, Elena and Klyachko, Elena and K{"o}hn, Arne and K{"o}ksal, Abdullatif and Kopacewicz, Kamil and Korkiakangas, Timo and K{"o}se, Mehmet and Kotsyba, Natalia and Kovalevskaite, Jolanta and Krek, Simon and Krishnamurthy, Parameswari and K{"u}bler, Sandra and Kuyruk{c c}u, O{g}uzhan and Kuzgun, Asli and Kwak, Sookyoung and Laippala, Veronika and Lam, Lucia and Lambertino, Lorenzo and Lando, Tatiana and Larasati, Septina Dian and Lavrentiev, Alexei and Lee, John and Le H{o}ng, Phương and Lenci, Alessandro and Lertpradit, Saran and Leung, Herman and Levina, Maria and Li, Cheuk Ying and Li, Josie and Li, Keying and Li, Yuan and Lim, {KyungTae} and Lima Padovani, Bruna and Lind{'e}n, Krister and Ljube{s}i{'c}, Nikola and Loginova, Olga and Lusito, Stefano and Luthfi, Andry and Luukko, Mikko and Lyashevskaya, Olga and Lynn, Teresa and Macketanz, Vivien and Mahamdi, Menel and Maillard, Jean and Makazhanov, Aibek and Mandl, Michael and Manning, Christopher and Manurung, Ruli and Mar{s}an, B{"u}{s}ra and M{a}r{a}nduc, C{a}t{a}lina and Mare{c}ek, David and Marheinecke, Katrin and Markantonatou, Stella and Mart{'i}nez Alonso, H{'e}ctor and Mart{'i}n Rodr{'i}guez, Lorena and Martins, Andr{'e} and Ma{s}ek, Jan and Matsuda, Hiroshi and Matsumoto, Yuji and Mazzei, Alessandro and {McDonald}, Ryan and {McGuinness}, Sarah and Mendon{c}a, Gustavo and Merzhevich, Tatiana and Miekka, Niko and Mischenkova, Karina and Misirpashayeva, Margarita and Missil{"a}, Anna and Mititelu, C{a}t{a}lin and Mitrofan, Maria and Miyao, Yusuke and Mojiri Foroushani, {AmirHossein} and Moln{'a}r, Judit and Moloodi, Amirsaeid and Montemagni, Simonetta and More, Amir and Moreno Romero, Laura and Moretti, Giovanni and Mori, Keiko Sophie and Mori, Shinsuke and Morioka, Tomohiko and Moro, Shigeki and Mortensen, Bjartur and Moskalevskyi, Bohdan and Muischnek, Kadri and Munro, Robert and Murawaki, Yugo and M{"u}{"u}risep, Kaili and Nainwani, Pinkey and Nakhl{'e}, Mariam and Navarro Horniacek, Juan Ignacio and Nedoluzhko, Anna and Ne{v s}pore-Berzkalne, Gunta and Nevaci, Manuela and Nguy{e}n Th{i}, Lương and Nguy{e}n Th{i} Minh, Huy{e}n and Nikaido, Yoshihiro and Nikolaev, Vitaly and Nitisaroj, Rattima and Nourian, Alireza and Nurmi, Hanna and Ojala, Stina and Ojha, Atul Kr. and Ol{'u}{'o}kun, Ad{e}day{o}̀ and Omura, Mai and Onwuegbuzia, Emeka and Ordan, Noam and Osenova, Petya and {"O}stling, Robert and {O}vrelid, Lilja and {"O}zate{s}, {S}aziye Bet{"u}l and {"O}z{c}elik, Merve and {"O}zg{"u}r, Arzucan and {"O}zt{"u}rk Ba{s}aran, Balkiz and Paccosi, Teresa and Palmero Aprosio, Alessio and Park, Hyunji Hayley and Partanen, Niko and Pascual, Elena and Passarotti, Marco and Patejuk, Agnieszka and Paulino-Passos, Guilherme and Pedonese, Giulia and Peljak-{L}api{n}ska, Angelika and Peng, Siyao and Perez, Cenel-Augusto and Perkova, Natalia and Perrier, Guy and Petrov, Slav and Petrova, Daria and Peverelli, Andrea and Phelan, Jason and Piitulainen, Jussi and Pirinen, Tommi A and Pitler, Emily and Plank, Barbara and Poibeau, Thierry and Ponomareva, Larisa and Popel, Martin and Pretkalni{n}a, Lauma and Pr{'e}vost, Sophie and Prokopidis, Prokopis and Przepi{o}rkowski, Adam and Puolakainen, Tiina and Pyysalo, Sampo and Qi, Peng and R{"a}{"a}bis, Andriela and Rademaker, Alexandre and Rahoman, Mizanur and Rama, Taraka and Ramasamy, Loganathan and Ramisch, Carlos and Rashel, Fam and Rasooli, Mohammad Sadegh and Ravishankar, Vinit and Real, Livy and Rebeja, Petru and Reddy, Siva and Regnault, Mathilde and Rehm, Georg and Riabov, Ivan and Rie{ss}ler, Michael and Rimkut{e}, Erika and Rinaldi, Larissa and Rituma, Laura and Rizqiyah, Putri and Rocha, Luisa and R{"o}gnvaldsson, Eir{'i}kur and Romanenko, Mykhailo and Rosa, Rudolf and Roșca, Valentin and Rovati, Davide and Rozonoyer, Ben and Rudina, Olga and Rueter, Jack and R{'u}narsson, Kristj{'a}n and Sadde, Shoval and Safari, Pegah and Sagot, Beno{i}t and Sahala, Aleksi and Saleh, Shadi and Salomoni, Alessio and Samard{v z}i{'c}, Tanja and Samson, Stephanie and Sanguinetti, Manuela and Saniyar, Ezgi and S{"a}rg, Dage and Saulite, Baiba and Sawanakunanon, Yanin and Saxena, Shefali and Scannell, Kevin and Scarlata, Salvatore and Schneider, Nathan and Schuster, Sebastian and Schwartz, Lane and Seddah, Djam{'e} and Seeker, Wolfgang and Seraji, Mojgan and Shahzadi, Syeda and Shen, Mo and Shimada, Atsuko and Shirasu, Hiroyuki and Shishkina, Yana and Shohibussirri, Muh and Sichinava, Dmitry and Siewert, Janine and Sigurðsson, Einar Freyr and Silveira, Aline and Silveira, Natalia and Simi, Maria and Simionescu, Radu and Simk{'o}, Katalin and {S}imkov{'a}, M{'a}ria and Simov, Kiril and Skachedubova, Maria and Smith, Aaron and Soares-Bastos, Isabela and Sourov, Shafi and Spadine, Carolyn and Sprugnoli, Rachele and Stamou, Vivian and Steingr{'i}msson, Stein{h}{'o}r and Stella, Antonio and Straka, Milan and Strickland, Emmett and Strnadov{'a}, Jana and Suhr, Alane and Sulestio, Yogi Lesmana and Sulubacak, Umut and Suzuki, Shingo and Swanson, Daniel and Sz{'a}nt{'o}, Zsolt and Taguchi, Chihiro and Taji, Dima and Takahashi, Yuta and Tamburini, Fabio and Tan, Mary Ann C. and Tanaka, Takaaki and Tanaya, Dipta and Tavoni, Mirko and Tella, Samson and Tellier, Isabelle and Testori, Marinella and Thomas, Guillaume and Tonelli, Sara and Torga, Liisi and Toska, Marsida and Trosterud, Trond and Trukhina, Anna and Tsarfaty, Reut and T{"u}rk, Utku and Tyers, Francis and Uematsu, Sumire and Untilov, Roman and Ure{v s}ov{'a}, Zde{n}ka and Uria, Larraitz and Uszkoreit, Hans and Utka, Andrius and Vagnoni, Elena and Vajjala, Sowmya and van der Goot, Rob and Vanhove, Martine and van Niekerk, Daniel and van Noord, Gertjan and Varga, Viktor and Vedenina, Uliana and Villemonte de la Clergerie, Eric and Vincze, Veronika and Vlasova, Natalia and Wakasa, Aya and Wallenberg, Joel C. and Wallin, Lars and Walsh, Abigail and Wang, Jing Xian and Washington, Jonathan North and Wendt, Maximilan and Widmer, Paul and Wigderson, Shira and Wijono, Sri Hartati and Williams, Seyi and Wir{'e}n, Mats and Wittern, Christian and Woldemariam, Tsegay and Wong, Tak-sum and Wr{'o}blewska, Alina and Yako, Mary and Yamashita, Kayo and Yamazaki, Naoki and Yan, Chunxiao and Yasuoka, Koichi and Yavrumyan, Marat M. and Yenice, Arife Bet{"u}l and Yildiz, Olcay Taner and Yu, Zhuoran and Yuliawati, Arlisa and {Z}abokrtsk{'y}, Zden{v e}k and Zahra, Shorouq and Zeldes, Amir and Zhou, He and Zhu, Hanzhi and Zhuravleva, Anna and Ziane, Rayan
},
url = {http://hdl.handle.net/11234/1-4758},
note = { {LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({ {'U}FAL}), Faculty of Mathematics and Physics, Charles University},
copyright = {Licence Universal Dependencies v2.10},
year = {2022}
}
universal_dependencies/af_afribooms (cấu hình mặc định)
Mô tả cấu hình : UD Afrikaans-AfriBooms là một chuyển đổi của Ngân hàng cây phụ thuộc AfriBooms, ban đầu được chú thích bằng một bộ PoS đơn giản hóa và các mối quan hệ phụ thuộc theo một tập hợp con của bộ thẻ Stanford. Các văn bản bao gồm các tài liệu công cộng của chính phủ. Bộ dữ liệu được đề xuất trong 'AfriBooms: An Online Treebank for Afrikaans' của Augustinus et al. (2016); https://www.aclweb.org/anthology/L16-1107.pdf
Kích thước tải xuống :
2.95 MiB
Kích thước tập dữ liệu :
4.02 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 194 |
'test' | 425 |
'train' | 1.315 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/akk_pisandub
Mô tả cấu hình : Một tập hợp nhỏ các câu từ chữ khắc của hoàng gia Babylon.
Kích thước tải xuống :
99.41 KiB
Kích thước tập dữ liệu :
126.32 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 101 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/akk_riao
Mô tả cấu hình : UD_Akkadian-RIAO là một treebank nhỏ bao gồm 22 277 từ và 1845 câu. Điều này đại diện cho một tập hợp con còn nguyên vẹn trong tổng số 2211 câu từ các bản khắc đầu tiên của hoàng gia Tân Assyria vào thế kỷ thứ mười và thứ chín trước Công nguyên. Những chữ khắc hoàng gia này được trích xuất từ Oracc (Open Richly Annotated Cuneiform Corpus; http://oracc.museum.upenn.edu/riao/ ), trong đó tất cả các chữ khắc hoàng gia Tân Assyria đều được viết từ ngữ theo từng từ. Ngôn ngữ của kho ngữ liệu là tiếng Babylon chuẩn, thỉnh thoảng có tiếng Assyria, trong khi "Akkadian" là thuật ngữ chung cho cả tiếng Assyria và tiếng Babylon. Treebank được chú thích thủ công theo hướng dẫn chú thích của UD.
Kích thước tải xuống :
1.87 MiB
Kích thước tập dữ liệu :
2.79 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.874 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/aqz_tudet
Mô tả cấu hình : UD_Akuntsu-TuDeT là tập hợp các văn bản được chú thích bằng Akuntsu. Cùng với UD_Tupinamba-TuDeT và UD_Munduruku-TuDeT, UD_Akuntsu-TuDeT là một phần của dự án TuLaR. Các câu đang được chú thích bởi Carolina Aragon và Fabrício Ferraz Gerardi.
Kích thước tải xuống :
67.25 KiB
Kích thước tập dữ liệu :
97.39 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 243 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/sq_tsa
Mô tả cấu hình : UD Treebank cho Standard Albanian (TSA) là một treebank nhỏ bao gồm 60 câu tương ứng với 922 mã thông báo. Dữ liệu được thu thập từ các mục Wikipedia khác nhau. Treebank này được tạo chủ yếu theo cách thủ công theo hướng dẫn của Universal Dependencies. Việc bổ sung được thực hiện bằng cách sử dụng công cụ bổ trợ https://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/ được phát triển bởi nhóm Corpus Quốc gia Albania (Maria Morozova, Alexander Rusakov, Timofey Arkhangelskiy). Gắn thẻ và Phân tích hình thái được bán tự động thông qua các tập lệnh python và được sửa theo cách thủ công, trong khi các mối quan hệ Phụ thuộc được chỉ định hoàn toàn thủ công. Chúng tôi khuyến khích mọi sáng kiến để tăng quy mô và/hoặc cải thiện chất lượng tổng thể của Treebank.
Kích thước tải xuống :
62.00 KiB
Kích thước tập dữ liệu :
93.65 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 60 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/am_att
Mô tả cấu hình : UD_Amharic-ATT là một Treebanks được chú thích thủ công. Nó được chú thích cho thẻ POS, thông tin hình thái và quan hệ phụ thuộc. Vì tiếng Amharic là một ngôn ngữ phong phú về hình thái, pro-drop và có đặc điểm nhân đôi âm vị, nên các ngữ âm đã được phân đoạn thủ công.
Kích thước tải xuống :
995.32 KiB
Kích thước tập dữ liệu :
1.33 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.074 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/grc_perseus
Mô tả cấu hình : Ngân hàng cây phụ thuộc toàn cầu tiếng Hy Lạp cổ đại này bao gồm chuyển đổi tự động một số đoạn từ Ngân hàng cây phụ thuộc tiếng Hy Lạp và Latinh cổ đại 2.1
Kích thước tải xuống :
18.02 MiB
Kích thước tập dữ liệu :
24.52 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.137 |
'test' | 1.306 |
'train' | 11,476 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/grc_proiel
Mô tả cấu hình : Treebank PROIEL Hy Lạp cổ đại dựa trên dữ liệu Hy Lạp cổ đại từ treebank PROIEL, được duy trì tại Khoa Triết học, Kinh điển, Lịch sử Nghệ thuật và Ý tưởng tại Đại học Oslo. Chuyển đổi dựa trên bản phát hành 20180408 của ngân hàng cây PROIEL có sẵn từ https://github.com/proiel/proiel-treebank/releases Các chú thích ban đầu được xác nhận trong các tệp có sẵn ở đó. Mã chuyển đổi có sẵn trong Rubygem proiel-cli, https://github.com/proiel/proiel-cli
Kích thước tải xuống :
22.62 MiB
Kích thước tập dữ liệu :
30.92 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.019 |
'test' | 1.047 |
'train' | 15,014 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/apu_ufpa
Mô tả cấu hình : Bản phát hành đầu tiên chứa 70 câu được chú thích. Đây là treebank đầu tiên trong một ngôn ngữ từ gia đình Arawak. Các độ bóng xen kẽ ban đầu được bao gồm trong ngân hàng cây và việc chuyển đổi chúng thành chú thích UD đầy đủ là một quá trình đang diễn ra. Các giá trị send_id (ví dụ: FernandaM2017:Texto-6-19) là đại diện của nhà sưu tập, năm xuất bản, định danh văn bản và số câu theo thứ tự từ văn bản gốc.
Kích thước tải xuống :
95.51 KiB
Kích thước tập dữ liệu :
98.49 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 115 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/hbo_ptnk
Mô tả cấu hình : PTNK tiếng Do Thái cổ đại UD chứa các phần của Biblia Hebraic Stuttgartensia với các chú thích hình thái học từ ETCBC.
Kích thước tải xuống :
3.11 MiB
Kích thước tập dữ liệu :
4.28 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 439 |
'test' | 410 |
'train' | 730 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ar_nyuad
Mô tả cấu hình : Treebank bao gồm 19.738 câu (738889 mã thông báo) và miền của nó chủ yếu là newswire. Chú thích được cấp phép theo các điều khoản của CC BY-SA 4.0 và PATB gốc có thể được lấy từ trang web chính thức của LDC.
Kích thước tải xuống :
55.87 MiB
Kích thước tập dữ liệu :
78.33 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.986 |
'test' | 1.963 |
'train' | 15,789 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ar_padt
Mô tả cấu hình : Treebank UD tiếng Ả Rập-PADT dựa trên Treebank phụ thuộc tiếng Ả Rập Praha (PADT), được tạo tại Đại học Charles ở Praha.
Kích thước tải xuống :
48.84 MiB
Kích thước tập dữ liệu :
64.42 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 909 |
'test' | 680 |
'train' | 6,075 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ar_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
1.98 MiB
Kích thước tập dữ liệu :
2.34 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/aii_as
Mô tả cấu hình : The Uppsala Assyrian Treebank là một ngân hàng cây nhỏ dành cho người Assyria tiêu chuẩn hiện đại. Kho ngữ liệu được thu thập và chú thích thủ công. Dữ liệu được thu thập ngẫu nhiên từ các sách giáo khoa khác nhau và bản dịch ngắn của The Merchant of Venice.
Kích thước tải xuống :
31.99 KiB
Kích thước tập dữ liệu :
48.85 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 57 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/bm_crb
Mô tả cấu hình : Treebank UD Bambara là một phần của Corpus Référence du Bambara được chú thích nguyên bản với các Phụ thuộc phổ quát.
Kích thước tải xuống :
873.37 KiB
Kích thước tập dữ liệu :
1.25 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.026 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/eu_bdt
Mô tả cấu hình : Treebank Basque UD dựa trên chuyển đổi tự động từ một phần của Basque Dependency Treebank (BDT), được tạo tại Đại học xứ Basque bởi nhóm nghiên cứu IXA NLP. Treebank bao gồm 8.993 câu (121.443 mã thông báo) và chủ yếu bao gồm các văn bản văn học và báo chí.
Kích thước tải xuống :
7.83 MiB
Kích thước tập dữ liệu :
11.74 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.798 |
'test' | 1.799 |
'train' | 5,396 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/bej_nsc
Mô tả cấu hình : Kho văn bản phụ thuộc toàn cầu cho Beja, nhánh Bắc Cushitic của ngành Phi-Á chủ yếu được nói ở Sudan, Ai Cập và Eritrea.
Kích thước tải xuống :
136.52 KiB
Kích thước tập dữ liệu :
168.15 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 56 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/be_hse
Mô tả cấu hình : Treebank UD của Bêlarut dựa trên một mẫu văn bản tin tức có trong tiểu văn bản song song Bêlarut-Nga của Kho dữ liệu quốc gia Nga, tìm kiếm trực tuyến có sẵn tại: http://ruscorpora.ru/search-para-be.html
Kích thước tải xuống :
30.04 MiB
Kích thước tập dữ liệu :
39.88 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.301 |
'test' | 1.077 |
'train' | 22,853 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/bn_bru
Mô tả cấu hình : Treebank BRU Bengali đã được tạo tại Đại học Begum Rokeya, Rangpur, bởi các thành viên của Semantics Lab.
Kích thước tải xuống :
38.41 KiB
Kích thước tập dữ liệu :
51.42 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 56 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/bho_bhtb
Mô tả cấu hình : Bhojpuri UD Treebank (BHTB) v2.6 bao gồm 6.664 mã thông báo (357 câu). Treebank này là một phần của dự án ngân hàng cây phụ thuộc toàn cầu. Ban đầu, nó được khởi xướng bởi tôi (Atul) tại Đại học Jawaharlal Nehru, New Delhi trong quá trình nghiên cứu tiến sĩ. Dữ liệu BHTB chứa chú thích cú pháp theo lược đồ thành phần phụ thuộc, cũng như các thẻ và bổ đề hình thái. Trong dữ liệu này, XPOS được chú thích theo bộ thẻ Part Of Speech (POS) của Cục Tiêu chuẩn Ấn Độ (BIS).
Kích thước tải xuống :
599.76 KiB
Kích thước tập dữ liệu :
817.23 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 357 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/br_keb
Mô tả cấu hình : UD Breton-KEB là một treebank của Breton đã được chú thích theo cách thủ công theo nguyên tắc Phụ thuộc chung. Nguyên tắc mã thông báo hóa và chú thích hình thái đến từ một máy phân tích hình thái trạng thái hữu hạn của Breton được phát hành như một phần của dự án Apertium.
Kích thước tải xuống :
663.63 KiB
Kích thước tập dữ liệu :
863.36 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 888 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/bg_btb
Mô tả cấu hình : UD_Bulgarian-BTB dựa trên BulTreeBank dựa trên HPSG, được tạo tại Viện Công nghệ Thông tin và Truyền thông, Viện Hàn lâm Khoa học Bungari. Bản gốc bao gồm 215.000 mã thông báo (hơn 15.000 câu).
Kích thước tải xuống :
14.22 MiB
Kích thước tập dữ liệu :
20.01 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.115 |
'test' | 1.116 |
'train' | 8,907 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/bxr_bdt
Mô tả cấu hình : Ngân hàng cây UD Buryat được chú thích thủ công nguyên bản trong UD và chứa các câu trong sách ngữ pháp, cùng với tin tức và một số tiểu thuyết.
Kích thước tải xuống :
710.23 KiB
Kích thước tập dữ liệu :
1018.12 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 908 |
'train' | 19 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/yue_hk
Mô tả cấu hình : Một treebank tiếng Quảng Đông (bằng ký tự Trung Quốc phồn thể) chứa phụ đề phim và thủ tục lập pháp của Hồng Kông, song song với treebank Trung Quốc-HK.
Kích thước tải xuống :
693.38 KiB
Kích thước tập dữ liệu :
1.04 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,004 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ca_ancora
Mô tả cấu hình : Dữ liệu tiếng Catalan từ AnCora corpus.
Kích thước tải xuống :
48.14 MiB
Kích thước tập dữ liệu :
64.03 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.709 |
'test' | 1.846 |
'train' | 13,123 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ceb_gja
Mô tả cấu hình : UD_Cebuano_GJA là tập hợp các câu mẫu tiếng Cebuano có chú thích được lấy ngẫu nhiên từ ba nguồn khác nhau: các mẫu do cộng đồng đóng góp từ trang web Tatoeba, sách ngữ pháp tiếng Cebuano của Bunye & Yap (1971) và ngữ pháp tham khảo về tiếng Cebuano của Tanangkinsing (2011). Dự án này hiện đang được tiến hành.
Kích thước tải xuống :
99.30 KiB
Kích thước tập dữ liệu :
136.74 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 188 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/zh_cfl
Mô tả cấu hình : Treebank UD tiếng Trung-CFL được Keying Li chú thích thủ công với các sửa đổi thủ công nhỏ của Herman Leung và John Lee tại Đại học Thành phố Hồng Kông, dựa trên các bài tiểu luận được viết bởi những người học tiếng Quan Thoại như một ngoại ngữ. Dữ liệu bằng tiếng Trung giản thể.
Kích thước tải xuống :
375.71 KiB
Kích thước tập dữ liệu :
558.45 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 451 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/zh_gsd
Mô tả cấu hình : Treebank phụ thuộc phổ quát truyền thống của Trung Quốc được chú thích và chuyển đổi bởi Google.
Kích thước tải xuống :
6.48 MiB
Kích thước tập dữ liệu :
8.88 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 3,997 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/zh_gsdsimp
Mô tả cấu hình : Bộ dữ liệu phụ thuộc phổ quát tiếng Trung giản thể được chuyển đổi từ bộ dữ liệu GSD (truyền thống) với các chỉnh sửa thủ công.
Kích thước tải xuống :
6.48 MiB
Kích thước tập dữ liệu :
8.88 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 3,997 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/zh_hk
Mô tả cấu hình : Một treebank truyền thống của Trung Quốc chứa phụ đề phim và các thủ tục lập pháp của Hồng Kông, song song với treebank Quảng Đông-HK.
Kích thước tải xuống :
482.85 KiB
Kích thước tập dữ liệu :
779.66 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,004 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/zh_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
1.53 MiB
Kích thước tập dữ liệu :
1.95 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ckt_hse
Mô tả cấu hình : Dữ liệu này là chú thích thủ công của kho văn bản từ kho văn bản được chú thích đa phương tiện của dự án Chuklang, một kho văn bản phương ngữ của biến thể Amguema của Chukchi.
Kích thước tải xuống :
793.16 KiB
Kích thước tập dữ liệu :
828.50 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,004 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/lzh_kyoto
Mô tả cấu hình : Treebank phụ thuộc phổ quát tiếng Trung cổ điển được chú thích và chuyển đổi bởi Viện nghiên cứu nhân văn, Đại học Kyoto.
Kích thước tải xuống :
26.86 MiB
Kích thước tập dữ liệu :
39.40 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 5,687 |
'test' | 4,932 |
'train' | 48,569 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/cop_scriptorium
Mô tả cấu hình : UD Coptic chứa các văn bản Sahidic Coptic được chú thích thủ công, bao gồm các văn bản Kinh thánh, bài giảng, thư từ và thánh tích.
Kích thước tải xuống :
4.73 MiB
Kích thước tập dữ liệu :
6.12 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 381 |
'test' | 403 |
'train' | 1.227 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/hr_set
Mô tả cấu hình : Treebank UD của Croatia dựa trên phần mở rộng của kho văn bản SETimes-HR, kho văn bản hr500k.
Kích thước tải xuống :
14.41 MiB
Kích thước tập dữ liệu :
20.43 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 960 |
'test' | 1.136 |
'train' | 6,914 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/cs_cac
Mô tả cấu hình : Treebank UD_Czech-CAC dựa trên Czech Academic Corpus 2.0 (CAC; Český akademický korpus; ČAK), được tạo tại Đại học Charles ở Praha.
Kích thước tải xuống :
53.72 MiB
Kích thước tập dữ liệu :
73.74 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 603 |
'test' | 628 |
'train' | 23,478 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/cs_cltt
Mô tả cấu hình : Treebank UD_Czech-CLTT dựa trên Treebank Văn bản pháp lý Séc 1.0, được tạo tại Đại học Charles ở Praha.
Kích thước tải xuống :
3.57 MiB
Kích thước tập dữ liệu :
4.73 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 129 |
'test' | 136 |
'train' | 860 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/cs_fictree
Mô tả cấu hình : FicTree là một treebank tiểu thuyết của Séc, được tự động chuyển đổi sang định dạng UD. Treebank được xây dựng tại Đại học Charles ở Praha.
Kích thước tải xuống :
16.65 MiB
Kích thước tập dữ liệu :
23.29 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.309 |
'test' | 1.291 |
'train' | 10.160 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/cs_pdt
Mô tả cấu hình : Treebank Czech-PDT UD dựa trên Treebank phụ thuộc Praha 3.0 (PDT), được tạo tại Đại học Charles ở Praha.
Kích thước tải xuống :
164.29 MiB
Kích thước tập dữ liệu :
224.30 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có (nhà phát triển, kiểm tra), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 9.270 |
'test' | 10,148 |
'train' | 68,495 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/cs_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
2.14 MiB
Kích thước tập dữ liệu :
2.76 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/da_ddt
Mô tả cấu hình : Treebank UD của Đan Mạch là một chuyển đổi của Treebank phụ thuộc của Đan Mạch.
Kích thước tải xuống :
6.13 MiB
Kích thước tập dữ liệu :
9.15 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 564 |
'test' | 565 |
'train' | 4,383 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/nl_alpino
Mô tả cấu hình : Kho văn bản này bao gồm các mẫu từ nhiều ngân hàng cây khác nhau được chú thích tại Đại học Groningen bằng cách sử dụng các hướng dẫn và công cụ chú thích của Alpino.
Kích thước tải xuống :
15.98 MiB
Kích thước tập dữ liệu :
21.03 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 718 |
'test' | 596 |
'train' | 12,289 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/nl_lassysmall
Mô tả cấu hình : Tập văn bản này chứa các câu từ phần Wikipedia của Lassy Small Treebank. Chú thích Universal Dependency được tạo tự động từ chú thích ban đầu trong Lassy.
Kích thước tải xuống :
7.61 MiB
Kích thước tập dữ liệu :
9.86 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 676 |
'test' | 876 |
'train' | 5,789 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_esl
Mô tả cấu hình : UD English-ESL / Treebank of Learner English (TLE) chứa thẻ POS thủ công và chú thích phụ thuộc cho 5.124 câu tiếng Anh là ngôn ngữ thứ hai (ESL) được rút ra từ bộ dữ liệu Chứng chỉ đầu tiên về tiếng Anh (FCE) của Cambridge Learner Corpus.
Kích thước tải xuống :
3.20 MiB
Kích thước tập dữ liệu :
4.72 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 4,124 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_ewt
Mô tả cấu hình : Tập dữ liệu phụ thuộc phổ quát tiêu chuẩn vàng cho tiếng Anh, được xây dựng dựa trên tài liệu nguồn của Web Treebank tiếng Anh LDC2012T13 ( https://catalog.ldc.upenn.edu/LDC2012T13 ).
Kích thước tải xuống :
16.37 MiB
Kích thước tập dữ liệu :
23.60 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2.001 |
'test' | 2,077 |
'train' | 12,543 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_gum
Mô tả cấu hình : Chú thích cú pháp Phụ thuộc phổ quát từ kho văn bản GUM ( https://corpling.uis.georgetown.edu/gum/ ).
Kích thước tải xuống :
13.81 MiB
Kích thước tập dữ liệu :
18.21 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.117 |
'test' | 1.096 |
'train' | 6,917 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_gumreddit
Mô tả cấu hình : Chú thích cú pháp Phụ thuộc phổ quát từ phần Reddit của kho văn bản GUM ( https://corpling.uis.georgetown.edu/gum/ )
Kích thước tải xuống :
1.47 MiB
Kích thước tập dữ liệu :
2.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 104 |
'test' | 105 |
'train' | 686 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_lines
Mô tả cấu hình : UD English_LinES là một nửa tiếng Anh của Ngân hàng cây song song LinES với chú thích phụ thuộc ban đầu trước tiên được tự động chuyển đổi thành Phụ thuộc chung và sau đó được xem xét một phần. Nội dung của nó bao gồm tài liệu, hướng dẫn trực tuyến và dữ liệu Europarl.
Kích thước tải xuống :
5.27 MiB
Kích thước tập dữ liệu :
7.54 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.032 |
'test' | 1.035 |
'train' | 3.176 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_atis
Mô tả cấu hình : UD Atis Treebank là một treebank được chú thích thủ công bao gồm các câu trong bộ dữ liệu Atis (Thông tin du lịch hàng không) bao gồm các bản phiên âm giọng nói của những người hỏi thông tin chuyến bay trên hệ thống hỏi tự động.
Kích thước tải xuống :
3.06 MiB
Kích thước tập dữ liệu :
4.76 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 572 |
'test' | 586 |
'train' | 4,274 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_partut
Mô tả cấu hình : UD_English-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.
Kích thước tải xuống :
2.59 MiB
Kích thước tập dữ liệu :
3.65 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 156 |
'test' | 153 |
'train' | 1.781 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_pronouns
Mô tả cấu hình : UD English-Pronouns là tập dữ liệu được tạo để giúp nhận dạng đại từ chính xác hơn và có sự phân bổ cân bằng hơn giữa các giới tính. Bộ dữ liệu ban đầu đang nhắm mục tiêu các đại từ Sở hữu cách độc lập, 'của cô ấy', (độc lập) 'của anh ấy', (số ít) 'của họ', 'của tôi' và (số ít) 'của bạn'.
Kích thước tải xuống :
138.08 KiB
Kích thước tập dữ liệu :
186.09 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 285 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/en_pud
Mô tả cấu hình : Đây là phần tiếng Anh của ngân hàng cây Các phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ chia sẻ CoNLL 2017 về Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Các phụ thuộc phổ biến ( http://universaldependencies.org/conll17/ ).
Kích thước tải xuống :
1.28 MiB
Kích thước tập dữ liệu :
1.82 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/myv_jr
Mô tả cấu hình : UD Erzya là chú thích gốc (CoNLL-U) cho các văn bản bằng ngôn ngữ Erzya, ban đầu nó bao gồm một mẫu từ một số tác giả tiểu thuyết viết bản gốc bằng tiếng Erzya.
Kích thước tải xuống :
1.88 MiB
Kích thước tập dữ liệu :
2.47 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.714 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/et_edt
Mô tả cấu hình : UD Estonian là phiên bản được chuyển đổi của Estonian Dependency Treebank (EDT), ban đầu được chú thích trong lược đồ chú thích Ngữ pháp ràng buộc (CG) và bao gồm các thể loại tiểu thuyết, văn bản báo chí và văn bản khoa học. Treebank chứa 30.972 cây, 437.769 mã thông báo.
Kích thước tải xuống :
31.09 MiB
Kích thước tập dữ liệu :
45.98 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 3,127 |
'test' | 3,214 |
'train' | 24,632 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/et_ewt
Mô tả cấu hình : Treebank UD EWT bao gồm các thể loại phương tiện mới khác nhau. Treebank chứa 4.493 cây, 56.399 mã thông báo.
Kích thước tải xuống :
5.35 MiB
Kích thước tập dữ liệu :
8.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 833 |
'test' | 913 |
'train' | 4,579 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fo_farpahc
Mô tả cấu hình : UD_Icelandic-FarPaHC là một chuyển đổi của Kho dữ liệu lịch sử được phân tích cú pháp tiếng Faroese (FarPaHC) sang lược đồ Phụ thuộc phổ quát. Quá trình chuyển đổi được thực hiện bằng UDConverter.
Kích thước tải xuống :
2.09 MiB
Kích thước tập dữ liệu :
2.84 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 300 |
'test' | 301 |
'train' | 1.020 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fo_oft
Mô tả cấu hình : Đây là một treebank của tiếng Faroe dựa trên Wikipedia tiếng Faroe.
Kích thước tải xuống :
783.86 KiB
Kích thước tập dữ liệu :
1.07 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.208 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fi_ftb
Mô tả cấu hình : FinnTreeBank 1 bao gồm các ví dụ ngữ pháp được chú thích thủ công từ VISK. Phiên bản UD của FinnTreeBank 1 đã được chuyển đổi từ mô hình chú thích gốc bằng tập lệnh và sau đó được sửa đổi thủ công.
Kích thước tải xuống :
12.52 MiB
Kích thước tập dữ liệu :
18.45 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.875 |
'test' | 1.867 |
'train' | 14,981 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fi_ood
Mô tả cấu hình : Phần Lan-OOD là bộ thử nghiệm ngoài miền bên ngoài dành cho Phần Lan-TDT được chú thích nguyên bản vào sơ đồ UD.
Kích thước tải xuống :
1.40 MiB
Kích thước tập dữ liệu :
2.11 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.122 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fi_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
1.34 MiB
Kích thước tập dữ liệu :
1.80 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fi_tdt
Mô tả cấu hình : UD_Finnish-TDT dựa trên Treebank phụ thuộc Turku (TDT), một treebank phụ thuộc có phạm vi bao phủ rộng của Phần Lan nói chung bao gồm nhiều thể loại. Việc chuyển đổi sang UD được theo sau bởi quá trình kiểm tra và chỉnh sửa thủ công rộng rãi, và treebank tuân thủ chặt chẽ các hướng dẫn của UD.
Kích thước tải xuống :
15.84 MiB
Kích thước tập dữ liệu :
23.17 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.364 |
'test' | 1.555 |
'train' | 12,217 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_fqb
Mô tả cấu hình : Kho ngữ liệu UD_French-FQB là chuyển đổi tự động của Ngân hàng câu hỏi tiếng Pháp v1, một kho ngữ liệu hoàn toàn gồm các câu hỏi.
Kích thước tải xuống :
1.47 MiB
Kích thước tập dữ liệu :
2.32 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.289 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_ftb
Mô tả cấu hình : Phiên bản Universal Dependency của French Treebank (Abeillé et al., 2003), sau đây gọi là UD_French-FTB, là một treebank các câu từ tờ báo Le Monde, ban đầu được chú thích thủ công với thông tin hình thái học và cấu trúc cụm từ, sau đó được chuyển đổi thành lược đồ chú thích Phụ thuộc phổ quát.
Kích thước tải xuống :
29.49 MiB
Kích thước tập dữ liệu :
44.93 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.235 |
'test' | 2.541 |
'train' | 14,759 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_gsd
Mô tả cấu hình : UD_French-GSD đã được chuyển đổi vào năm 2015 từ phiên bản đầu nội dung của treebank phụ thuộc toàn cầu v2.0 ( https://github.com/ryanmcd/uni-dep-tb ). Nó được cập nhật từ năm 2015 độc lập với nguồn trước đó.
Kích thước tải xuống :
24.38 MiB
Kích thước tập dữ liệu :
35.77 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,476 |
'test' | 416 |
'train' | 14,449 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_partut
Mô tả cấu hình : UD_French-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.
Kích thước tải xuống :
1.74 MiB
Kích thước tập dữ liệu :
2.44 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 107 |
'test' | 110 |
'train' | 803 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_rhapsodie
Mô tả cấu hình : Kho dữ liệu phụ thuộc chung cho tiếng Pháp nói.
Kích thước tải xuống :
3.00 MiB
Kích thước tập dữ liệu :
4.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.082 |
'test' | 840 |
'train' | 1.288 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_parisstories
Mô tả cấu hình : Paris Stories là một kho văn bản tiếng Pháp truyền miệng được thu thập và phiên âm bởi các sinh viên Ngôn ngữ học từ Sorbonne Nouvelle và được sửa chữa bởi các sinh viên từ Bằng Thạc sĩ Ngôn ngữ học Máy tính Đa âm (Inalco, Paris Nanterre, Sorbonne Nouvelle) từ năm 2017 đến 2021. Nó chứa các đoạn độc thoại và đối thoại từ diễn giả sống trong khu vực Paris.
Kích thước tải xuống :
1.97 MiB
Kích thước tập dữ liệu :
2.70 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 547 |
'train' | 1.216 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
1.71 MiB
Kích thước tập dữ liệu :
2.24 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/fr_sequoia
Mô tả cấu hình : UD_French-Sequoia là một chuyển đổi tự động của Sequoia Treebank corpus French Sequoia corpus.
Kích thước tải xuống :
4.21 MiB
Kích thước tập dữ liệu :
6.18 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 412 |
'test' | 456 |
'train' | 2.231 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/gl_ctg
Mô tả cấu hình : Treebank Galicia UD dựa trên phân tích cú pháp tự động của Galicia Technical Corpus ( http://sli.uvigo.gal/CTG ) do nhóm nghiên cứu TALG NLP tạo ra tại Đại học Vigo.
Kích thước tải xuống :
7.85 MiB
Kích thước tập dữ liệu :
10.81 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 860 |
'test' | 861 |
'train' | 2.272 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/gl_treegal
Mô tả cấu hình : Galician-TreeGal là một treebank dành cho Galicia được phát triển tại LyS Group (Đại học da Coruña).
Kích thước tải xuống :
1.66 MiB
Kích thước tập dữ liệu :
2.35 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 400 |
'train' | 600 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/de_gsd
Mô tả cấu hình : UD của Đức được chuyển đổi từ phiên bản nội dung chính của treebank phụ thuộc phổ quát v2.0 (cũ).
Kích thước tải xuống :
20.69 MiB
Kích thước tập dữ liệu :
29.60 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 799 |
'test' | 977 |
'train' | 13,814 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/de_hdt
Mô tả cấu hình : UD German-HDT là một chuyển đổi của Hamburg Dependency Treebank, được tạo tại Đại học Hamburg thông qua chú thích thủ công kết hợp với một tiêu chuẩn cho các câu chú thích về mặt hình thái và cú pháp cũng như trình phân tích cú pháp dựa trên ràng buộc.
Kích thước tải xuống :
242.97 MiB
Kích thước tập dữ liệu :
347.93 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 18,434 |
'test' | 18,459 |
'train' | 153,035 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/de_lit
Mô tả cấu hình : Treebank này nhằm mục đích thu thập các văn bản về lịch sử văn học Đức. Hiện tại, nó lưu trữ Những mảnh vỡ của Chủ nghĩa lãng mạn thời kỳ đầu, tức là các văn bản giống như cách ngôn chủ yếu giải quyết các vấn đề triết học liên quan đến nghệ thuật, cái đẹp và các chủ đề liên quan.
Kích thước tải xuống :
1.97 MiB
Kích thước tập dữ liệu :
2.49 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,922 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/de_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
1.65 MiB
Kích thước tập dữ liệu :
2.20 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/got_proiel
Mô tả cấu hình : Ngân hàng cây UD Gothic dựa trên dữ liệu Gothic từ ngân hàng cây PROIEL và bao gồm bản dịch Kinh thánh của Wulfila.
Kích thước tải xuống :
4.98 MiB
Kích thước tập dữ liệu :
7.17 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 985 |
'test' | 1.029 |
'train' | 3,387 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/el_gdt
Mô tả cấu hình : Treebank UD Hy Lạp (UD_Greek-GDT) được lấy từ Treebank phụ thuộc Hy Lạp ( http://gdt.ilsp.gr ), một tài nguyên được phát triển và duy trì bởi các nhà nghiên cứu tại Viện Xử lý Ngôn ngữ và Lời nói/Athena RC ( http://www.ilsp.gr ).
Kích thước tải xuống :
5.52 MiB
Kích thước tập dữ liệu :
7.49 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 403 |
'test' | 456 |
'train' | 1.662 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/gub_tudet
Mô tả cấu hình : UD_Guajajara-TuDeT là tập hợp các câu được chú thích bằng tiếng Guajajara. Các câu xuất phát từ nhiều nguồn như mô tả ngôn ngữ, truyện ngắn, từ điển và bản dịch từ Tân Ước. Chú thích câu và tài liệu của Lorena Martín Rodríguez và Fabrício Ferraz Gerardi.
Kích thước tải xuống :
683.38 KiB
Kích thước tập dữ liệu :
738.09 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.126 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/gn_oldtudet
Mô tả cấu hình : UD_Guarani-OldTuDeT là tập hợp các văn bản được chú thích bằng tiếng Guaraní cổ. Tất cả các nguồn được biết đến trong ngôn ngữ này đang được chú thích: cathesism, ngữ pháp (thế kỷ mười bảy và mười tám), câu từ từ điển và các văn bản khác. Chú thích câu và tài liệu của Fabrício Ferraz Gerardi và Lorena Martín Rodríguez.
Kích thước tải xuống :
18.93 KiB
Kích thước tập dữ liệu :
24.71 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 59 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/he_htb
Mô tả cấu hình : Tập dữ liệu phụ thuộc chung cho tiếng Do Thái.
Kích thước tải xuống :
11.64 MiB
Kích thước tập dữ liệu :
16.10 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 484 |
'test' | 491 |
'train' | 5,241 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/he_iahltwiki
Mô tả cấu hình : Tập hợp con có sẵn công khai của phần Wikipedia của IAHLT UD Hebrew Treebank ( https://www.iahlt.org/ )
Kích thước tải xuống :
10.30 MiB
Kích thước tập dữ liệu :
14.16 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 348 |
'test' | 393 |
'train' | 4.298 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/qfn_fame
Mô tả cấu hình : UD_Frisian_Dutch-Fame là tuyển tập 400 câu từ FAME! văn bản lời nói của Yilmaz et al. (2016a, 2016b). Treebank được chú thích thủ công bằng lược đồ UD.
Kích thước tải xuống :
232.57 KiB
Kích thước tập dữ liệu :
290.88 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 400 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/qhe_hiencs
Mô tả cấu hình : Treebank chuyển đổi mã Hindi-English dựa trên các tweet chuyển đổi mã của những người nói đa ngôn ngữ Hindi và tiếng Anh (chủ yếu là người Ấn Độ) trên Twitter. Treebank được chú thích thủ công bằng UD sceheme. Các bộ đào tạo và đánh giá được chú thích riêng biệt bởi các nhà chú thích khác nhau bằng cách sử dụng hướng dẫn UD v2 và v1 tương ứng. Các bộ đánh giá được tự động chuyển đổi từ UD v1 sang v2.
Kích thước tải xuống :
893.15 KiB
Kích thước tập dữ liệu :
1.53 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 225 |
'test' | 225 |
'train' | 1.448 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/hi_hdtb
Mô tả cấu hình : Treebank UD tiếng Hindi dựa trên Treebank phụ thuộc tiếng Hindi (HDTB), được tạo tại IIIT Hyderabad, Ấn Độ.
Kích thước tải xuống :
49.18 MiB
Kích thước tập dữ liệu :
68.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1.659 |
'test' | 1.684 |
'train' | 13,304 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/hi_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ được chia sẻ CoNLL 2017 trên Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
2.20 MiB
Kích thước tập dữ liệu :
2.82 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/hu_szeged
Mô tả cấu hình : Treebank UD của Hungary có nguồn gốc từ Treebank phụ thuộc Szeged (Vincze et al. 2010).
Kích thước tải xuống :
2.92 MiB
Kích thước tập dữ liệu :
4.20 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 441 |
'test' | 449 |
'train' | 910 |
- Ví dụ ( tfds.as_dataframe ):
phổ_phụ thuộc/là_hiện_đại
Mô tả cấu hình : UD_Icelandic-Modern là sự chuyển đổi các phần bổ sung hiện đại cho Kho dữ liệu lịch sử được phân tích cú pháp tiếng Iceland (IcePaHC) sang sơ đồ Phụ thuộc phổ quát.
Kích thước tải xuống :
9.02 MiB
Kích thước tập dữ liệu :
12.32 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 784 |
'test' | 768 |
'train' | 5,376 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/is_icepahc
Mô tả cấu hình : UD_Icelandic-IcePaHC là một chuyển đổi của Tập dữ liệu lịch sử được phân tích cú pháp tiếng Iceland (IcePaHC) sang sơ đồ Phụ thuộc phổ quát. Quá trình chuyển đổi được thực hiện bằng UDConverter.
Kích thước tải xuống :
81.16 MiB
Kích thước tập dữ liệu :
112.07 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 4.865 |
'test' | 5,157 |
'train' | 34,007 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/is_pud
Mô tả cấu hình : Icelandic-PUD là phần tiếng Iceland của ngân hàng cây Parallel Universal Dependencies (PUD).
Kích thước tải xuống :
1.45 MiB
Kích thước tập dữ liệu :
1.89 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/id_csui
Mô tả cấu hình : UD Indonesia-CSUI là một chuyển đổi từ một ngân hàng cây bầu cử Indonesia ở định dạng Penn Treebank có tên Kethu, đó cũng là một chuyển đổi từ một ngân hàng cây bầu cử được xây dựng bởi Dinakaramani et al. (2015). Chúng tôi đặt tên cho ngân hàng cây này là Indonesia-CSUI, vì cả ba phiên bản ngân hàng cây này đều được xây dựng tại Khoa Khoa học Máy tính, Đại học Indonesia.
Kích thước tải xuống :
1.62 MiB
Kích thước tập dữ liệu :
1.97 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 374 |
'train' | 656 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/id_gsd
Mô tả cấu hình : UD Indonesia được chuyển đổi từ phiên bản đầu nội dung của treebank phụ thuộc phổ quát v2.0 (cũ).
Kích thước tải xuống :
9.15 MiB
Kích thước tập dữ liệu :
11.25 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 559 |
'test' | 557 |
'train' | 4,482 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/id_pud
Mô tả cấu hình : Đây là một phần của ngân hàng cây Phụ thuộc phổ quát song song (PUD) được tạo cho tác vụ chia sẻ CoNLL 2017 về Phân tích cú pháp đa ngôn ngữ từ Văn bản thô sang Phụ thuộc phổ biến.
Kích thước tải xuống :
1.10 MiB
Kích thước tập dữ liệu :
1.44 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ga_idt
Mô tả cấu hình : Một ngân hàng cây 4910 câu phụ thuộc toàn cầu cho tiếng Ireland hiện đại.
Kích thước tải xuống :
7.62 MiB
Kích thước tập dữ liệu :
10.77 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 451 |
'test' | 454 |
'train' | 4,005 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/ga_twittirish
Mô tả cấu hình : Một ngân hàng cây phụ thuộc toàn cầu gồm 866 tweet bằng tiếng Ireland hiện đại.
Kích thước tải xuống :
782.30 KiB
Kích thước tập dữ liệu :
1.13 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 866 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/it_isdt
Mô tả cấu hình : Tập văn bản tiếng Ý được chú thích theo sơ đồ chú thích UD thu được bằng cách chuyển đổi từ ISDT (Ngân hàng cây phụ thuộc Stanford của Ý), được phát hành cho nhiệm vụ chia sẻ phân tích cú pháp phụ thuộc của Evalita-2014 (Bosco et al. 2014).
Kích thước tải xuống :
20.03 MiB
Kích thước tập dữ liệu :
29.18 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 564 |
'test' | 482 |
'train' | 13,121 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/it_partut
Mô tả cấu hình : UD_Italian-ParTUT là một chuyển đổi của một ngân hàng cây song song đa ngôn ngữ được phát triển tại Đại học Turin và bao gồm nhiều thể loại văn bản, bao gồm các cuộc nói chuyện, văn bản pháp luật và các bài báo trên Wikipedia, trong số những thể loại khác.
Kích thước tải xuống :
3.42 MiB
Kích thước tập dữ liệu :
4.83 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 156 |
'test' | 153 |
'train' | 1.781 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/it_postwita
Mô tả cấu hình : PoSTWITA-UD là tập hợp các tweet của Ý được chú thích trong Phần phụ thuộc chung có thể được khai thác để đào tạo các hệ thống NLP nhằm nâng cao hiệu suất của chúng trên các văn bản truyền thông xã hội.
Kích thước tải xuống :
7.27 MiB
Kích thước tập dữ liệu :
10.47 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 670 |
'test' | 674 |
'train' | 5,368 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/it_markit
Mô tả cấu hình : Đó là MarkIT Mới: Một Treebank Ý về các công trình được đánh dấu. Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)
Download size :
2.48 MiB
Dataset size :
3.44 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 341 |
'test' | 341 |
'train' | 613 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/it_valico
Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.
Download size :
520.45 KiB
Dataset size :
657.38 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 398 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/it_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.56 MiB
Dataset size :
2.05 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Ví dụ ( tfds.as_dataframe ):
universal_dependencies/it_twittiro
Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.
Download size :
1.81 MiB
Dataset size :
2.51 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 144 |
'test' | 142 |
'train' | 1,138 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/it_vit
Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).
Download size :
16.77 MiB
Dataset size :
23.72 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 743 |
'test' | 1,067 |
'train' | 8,277 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_pudluw
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
4.37 MiB
Dataset size :
5.11 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_bccwjluw
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).
Download size :
59.20 MiB
Dataset size :
100.36 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 8,427 |
'test' | 7,881 |
'train' | 40,801 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_gsdluw
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.
Download size :
28.31 MiB
Dataset size :
33.97 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 507 |
'test' | 543 |
'train' | 7,050 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_bccwj
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).
Download size :
93.05 MiB
Dataset size :
157.62 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 8,427 |
'test' | 7,881 |
'train' | 40,801 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_gsd
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.
Download size :
43.21 MiB
Dataset size :
52.59 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 507 |
'test' | 543 |
'train' | 7,050 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_modern
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).
Download size :
2.06 MiB
Dataset size :
2.70 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 822 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ja_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies .
Download size :
6.48 MiB
Dataset size :
7.75 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/jv_csui
Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.
Download size :
141.40 KiB
Dataset size :
171.69 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 125 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/urb_tudet
Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.
Download size :
24.74 KiB
Dataset size :
33.60 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 83 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/xnr_kdtb
Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.
Download size :
132.92 KiB
Dataset size :
196.42 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 288 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/krl_kkpp
Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.
Download size :
220.80 KiB
Dataset size :
317.02 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 228 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kk_ktb
Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.
Download size :
833.88 KiB
Dataset size :
1.15 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,047 |
'train' | 31 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/arr_tudet
Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.
Download size :
174.70 KiB
Dataset size :
259.24 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 674 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kfm_aha
Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.
Download size :
6.14 KiB
Dataset size :
7.56 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/quc_iu
Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.
Download size :
823.85 KiB
Dataset size :
1.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,435 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/koi_uh
Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.
Download size :
99.43 KiB
Dataset size :
118.77 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 100 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kpv_ikdp
Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.
Download size :
202.88 KiB
Dataset size :
273.92 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 214 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kpv_lattice
Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.
Download size :
741.82 KiB
Dataset size :
989.46 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 663 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ko_gsd
Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.
Download size :
4.66 MiB
Dataset size :
6.31 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 950 |
'test' | 989 |
'train' | 4,400 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ko_kaist
Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.
Download size :
20.84 MiB
Dataset size :
27.97 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2,066 |
'test' | 2,287 |
'train' | 23,010 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ko_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.92 MiB
Dataset size :
2.12 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/kmr_mg
Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.
Download size :
747.04 KiB
Dataset size :
1.07 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 734 |
'train' | 20 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_ittb
Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.
Download size :
40.75 MiB
Dataset size :
55.54 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2,101 |
'test' | 2,101 |
'train' | 22,775 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_udante
Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).
Kích thước tải xuống :
4.87 MiB
Dataset size :
6.65 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 376 |
'test' | 419 |
'train' | 926 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_llct
Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.
Download size :
20.99 MiB
Dataset size :
27.77 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 850 |
'test' | 884 |
'train' | 7,289 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_perseus
Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1
Download size :
2.45 MiB
Dataset size :
3.53 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 939 |
'train' | 1,334 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/la_proiel
Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.
Download size :
17.58 MiB
Dataset size :
25.21 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,234 |
'test' | 1,260 |
'train' | 15,917 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lv_lvtb
Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.
Download size :
30.93 MiB
Dataset size :
42.49 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,957 |
'test' | 2,325 |
'train' | 12,521 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lij_glt
Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.
Download size :
426.33 KiB
Dataset size :
636.88 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 296 |
'train' | 20 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lt_alksnis
Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).
Download size :
6.68 MiB
Dataset size :
9.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 617 |
'test' | 684 |
'train' | 2,341 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/lt_hse
Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.
Download size :
255.28 KiB
Dataset size :
1.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 153 |
'test' | 153 |
'train' | 153 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/olo_kkpp
Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.
Download size :
119.00 KiB
Dataset size :
165.75 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 106 |
'train' | 19 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/nds_lsdc
Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.
Download size :
209.01 KiB
Dataset size :
280.72 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 83 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/mt_mudt
Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.
Download size :
1.92 MiB
Dataset size :
2.67 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 433 |
'test' | 518 |
'train' | 1,123 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gv_cadhan
Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.
Download size :
1.26 MiB
Dataset size :
1.79 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2,319 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/mr_ufal
Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.
Download size :
330.87 KiB
Dataset size :
496.00 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 46 |
'test' | 47 |
'train' | 373 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gun_dooley
Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.
Download size :
560.08 KiB
Dataset size :
859.37 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,046 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gun_thomas
Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.
Download size :
90.88 KiB
Dataset size :
120.86 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 98 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/mdf_jr
Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.
Download size :
343.96 KiB
Dataset size :
451.57 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 342 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/myu_tudet
Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.
Download size :
67.85 KiB
Dataset size :
83.48 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 158 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pcm_nsc
Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).
Download size :
16.99 MiB
Dataset size :
21.58 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 991 |
'test' | 972 |
'train' | 7,278 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/nyq_aha
Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.
Download size :
6.24 KiB
Dataset size :
7.72 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 10 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sme_giella
Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.
Download size :
1.78 MiB
Dataset size :
2.72 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 865 |
'train' | 2,257 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/no_bokmaal
Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
18.29 MiB
Dataset size :
27.60 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2,409 |
'test' | 1,939 |
'train' | 15,696 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/no_nynorsk
Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
17.68 MiB
Dataset size :
26.46 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,890 |
'test' | 1,511 |
'train' | 14,174 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/no_nynorsklia
Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
3.19 MiB
Dataset size :
4.78 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 881 |
'test' | 957 |
'train' | 3,412 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/cu_proiel
Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.
Kích thước tải xuống :
5.92 MiB
Dataset size :
8.33 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,073 |
'test' | 1,141 |
'train' | 4,124 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/fro_srcmf
Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).
Download size :
13.51 MiB
Dataset size :
18.54 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,887 |
'test' | 1,989 |
'train' | 14,153 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/orv_birchbark
Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.
Download size :
4.04 MiB
Dataset size :
4.72 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,054 |
'test' | 1,006 |
'train' | 1.045 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/orv_rnc
Config description :
UD_Old_Russian-RNC
is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.Download size :
2.95 MiB
Dataset size :
4.02 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 648 |
'train' | 422 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/orv_torot
Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.
Download size :
14.49 MiB
Dataset size :
20.13 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,852 |
'test' | 1,756 |
'train' | 13,336 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/otk_tonqq
Config description :
UD_Old_Turkish-Tonqq
is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.Download size :
10.44 KiB
Dataset size :
14.01 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 20 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/fa_perdt
Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).
Download size :
32.05 MiB
Dataset size :
43.48 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,456 |
'test' | 1,455 |
'train' | 26,196 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/fa_seraji
Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.
Download size :
9.43 MiB
Dataset size :
12.50 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 599 |
'test' | 600 |
'train' | 4,798 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pl_lfg
Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.
Download size :
14.18 MiB
Dataset size :
18.96 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,745 |
'test' | 1,727 |
'train' | 13,774 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pl_pdb
Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).
Download size :
34.66 MiB
Dataset size :
47.62 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2,215 |
'test' | 2,215 |
'train' | 17,722 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pl_pud
Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re
Download size :
1.91 MiB
Dataset size :
2.52 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pt_bosque
Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.
Download size :
14.29 MiB
Dataset size :
20.41 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,172 |
'test' | 1,167 |
'train' | 7,018 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pt_gsd
Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).
Download size :
14.57 MiB
Dataset size :
20.34 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,204 |
'test' | 1,200 |
'train' | 9,615 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/pt_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.48 MiB
Dataset size :
1.95 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_art
Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.
Download size :
44.38 KiB
Dataset size :
65.95 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 50 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_nonstandard
Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0
Download size :
48.00 MiB
Dataset size :
66.84 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,052 |
'test' | 1,052 |
'train' | 24,121 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_rrt
Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.
Download size :
16.38 MiB
Dataset size :
22.96 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 752 |
'test' | 729 |
'train' | 8,043 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ro_simonero
Config description : SiMoNERo is a medical corpus of contemporary Romanian.
Download size :
11.36 MiB
Dataset size :
15.68 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 443 |
'test' | 491 |
'train' | 3,747 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_gsd
Config description : Russian Universal Dependencies Treebank annotated and converted by Google.
Kích thước tải xuống :
8.42 MiB
Dataset size :
11.51 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 579 |
'test' | 601 |
'train' | 3,850 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.78 MiB
Dataset size :
2.26 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_syntagrus
Config description : Russian data from the SynTagRus corpus.
Download size :
97.99 MiB
Dataset size :
139.66 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 6,584 |
'test' | 6,491 |
'train' | 48,814 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ru_taiga
Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.
Download size :
18.12 MiB
Dataset size :
24.32 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 946 |
'test' | 881 |
'train' | 16,045 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sa_ufal
Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.
Download size :
414.72 KiB
Dataset size :
407.83 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 230 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sa_vedic
Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.
Download size :
1.95 MiB
Dataset size :
3.14 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,473 |
'train' | 2,524 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gd_arcosg
Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).
Download size :
5.07 MiB
Dataset size :
7.20 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 655 |
'test' | 545 |
'train' | 3,539 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sr_set
Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.
Download size :
7.07 MiB
Dataset size :
10.04 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 536 |
'test' | 520 |
'train' | 3,328 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sms_giellagas
Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.
Download size :
216.27 KiB
Dataset size :
299.21 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 218 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sk_snk
Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.
Download size :
9.55 MiB
Dataset size :
13.87 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,060 |
'test' | 1,061 |
'train' | 8,483 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sl_ssj
Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.
Download size :
19.82 MiB
Dataset size :
28.72 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,250 |
'test' | 1,282 |
'train' | 10,903 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sl_sst
Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.
Download size :
2.53 MiB
Dataset size :
3.88 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1,110 |
'train' | 2,078 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/soj_aha
Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.
Download size :
4.47 KiB
Dataset size :
5.58 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 8 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ajp_madar
Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.
Download size :
42.16 KiB
Dataset size :
65.64 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 100 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/es_ancora
Config description : Spanish data from the AnCora corpus.
Download size :
50.23 MiB
Dataset size :
66.53 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,654 |
'test' | 1,721 |
'train' | 14,287 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/es_gsd
Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).
Download size :
24.86 MiB
Dataset size :
36.42 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,400 |
'test' | 426 |
'train' | 14,187 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/es_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies .
Download size :
1.60 MiB
Dataset size :
2.11 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/swl_sslc
Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.
Download size :
79.78 KiB
Dataset size :
122.04 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 82 |
'test' | 34 |
'train' | 87 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sv_lines
Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.
Download size :
6.91 MiB
Dataset size :
9.18 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,032 |
'test' | 1,035 |
'train' | 3,176 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sv_pud
Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.
Download size :
1.64 MiB
Dataset size :
2.13 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sv_talbanken
Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.
Download size :
8.08 MiB
Dataset size :
11.40 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 504 |
'test' | 1,219 |
'train' | 4,303 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/gsw_uzh
Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.
Download size :
58.28 KiB
Dataset size :
86.61 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 100 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tl_trg
Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.
Download size :
59.91 KiB
Dataset size :
84.14 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 128 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tl_ugnayan
Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.
Download size :
53.91 KiB
Dataset size :
76.16 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 94 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ta_mwtt
Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.
Download size :
394.18 KiB
Dataset size :
499.94 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 534 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ta_ttb
Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.
Download size :
1.68 MiB
Dataset size :
2.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 80 |
'test' | 120 |
'train' | 400 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/te_mtg
Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.
Download size :
628.67 KiB
Dataset size :
866.20 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 131 |
'test' | 146 |
'train' | 1,051 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/th_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.53 MiB
Dataset size :
1.85 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tpn_tudet
Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.
Download size :
293.55 KiB
Dataset size :
371.48 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Split | ví dụ |
---|---|
'test' | 546 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/qtd_sagt
Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.
Download size :
2.78 MiB
Dataset size :
4.28 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Split | ví dụ |
---|---|
'dev' | 801 |
'test' | 805 |
'train' | 578 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_atis
Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.
Download size :
3.26 MiB
Dataset size :
5.09 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Split | ví dụ |
---|---|
'dev' | 572 |
'test' | 586 |
'train' | 4,274 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_tourism
Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.
Download size :
6.48 MiB
Dataset size :
11.24 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 2,166 |
'test' | 2.191 |
'train' | 15,476 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_kenet
Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.
Download size :
12.16 MiB
Dataset size :
19.00 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 1,646 |
'test' | 1,643 |
'train' | 15,398 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_penn
Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)
Download size :
12.29 MiB
Dataset size :
18.82 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 622 |
'test' | 924 |
'train' | 14,850 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_framenet
Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.
Download size :
1.43 MiB
Dataset size :
2.28 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 205 |
'test' | 205 |
'train' | 2,288 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_boun
Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.
Download size :
9.07 MiB
Dataset size :
13.24 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 979 |
'test' | 979 |
'train' | 7,803 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_gb
Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.
Download size :
1.41 MiB
Dataset size :
2.02 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2,880 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_imst
Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).
Download size :
4.51 MiB
Dataset size :
6.70 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 988 |
'test' | 983 |
'train' | 3,664 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/tr_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.29 MiB
Dataset size :
1.65 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.000 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/uk_iu
Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]
Download size :
16.54 MiB
Dataset size :
21.99 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 672 |
'test' | 892 |
'train' | 5,496 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/hsb_ufal
Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.
Download size :
762.63 KiB
Dataset size :
1.11 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 623 |
'train' | 23 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ur_udtb
Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.
Download size :
15.16 MiB
Dataset size :
21.57 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 552 |
'test' | 535 |
'train' | 4,043 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ug_udt
Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.
Download size :
3.30 MiB
Dataset size :
4.59 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 900 |
'test' | 900 |
'train' | 1,656 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/vi_vtb
Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).
Download size :
1.96 MiB
Dataset size :
2.81 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 800 |
'test' | 800 |
'train' | 1,400 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/wbp_ufal
Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.
Download size :
37.58 KiB
Dataset size :
47.36 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 55 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/cy_ccg
Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.
Download size :
2.28 MiB
Dataset size :
3.06 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 953 |
'train' | 976 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/hy_armtdp
Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.
Download size :
6.56 MiB
Dataset size :
8.50 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 249 |
'test' | 277 |
'train' | 1,974 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/wo_wtb
Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.
Download size :
2.65 MiB
Dataset size :
3.78 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'dev' | 449 |
'test' | 470 |
'train' | 1,188 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sjo_xdt
Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.
Download size :
1.50 MiB
Dataset size :
1.74 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 810 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/sah_yktdt
Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis
Download size :
51.76 KiB
Dataset size :
61.70 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 96 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/yo_ytb
Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.
Download size :
554.64 KiB
Dataset size :
767.54 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 318 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.
universal_dependencies/ess_sli
Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).
Download size :
302.87 KiB
Dataset size :
410.25 KiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 309 |
- Examples ( tfds.as_dataframe ): Only shown for the first 100 configs.