- الوصف :
التبعيات العالمية (UD) هي إطار عمل للتعليق التوضيحي المتسق للقواعد (أجزاء من الكلام ، والميزات المورفولوجية ، والاعتمادات النحوية) عبر لغات بشرية مختلفة. UD هو جهد مجتمعي مفتوح مع أكثر من 300 مساهم ينتجون أكثر من 200 شجرة في أكثر من 100 لغة. إذا كنت جديدًا على UD ، فيجب أن تبدأ بقراءة الجزء الأول من المقدمة القصيرة ثم تصفح إرشادات التعليقات التوضيحية.
الصفحة الرئيسية https://universaldependencies.org/
كود المصدر :
tfds.datasets.universal_dependencies.Builder
إصدارات :
-
1.0.0
: الإصدار الأولي ، والذي يتوافق مع التبعيات العالمية 2.10. -
1.0.1
(افتراضي): تحديث أسماء التكوين.
-
هيكل الميزة :
FeaturesDict({
'deprel': Sequence(Text(shape=(), dtype=string)),
'deps': Sequence(Text(shape=(), dtype=string)),
'feats': Sequence(Text(shape=(), dtype=string)),
'head': Sequence(Text(shape=(), dtype=string)),
'idx': Text(shape=(), dtype=string),
'lemmas': Sequence(Text(shape=(), dtype=string)),
'misc': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'tokens': Sequence(Text(shape=(), dtype=string)),
'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
'xpos': Sequence(Text(shape=(), dtype=string)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
استنزاف | تسلسل (نص) | (لا أحد،) | سلسلة | |
الأقسام | تسلسل (نص) | (لا أحد،) | سلسلة | |
مآثر | تسلسل (نص) | (لا أحد،) | سلسلة | |
رأس | تسلسل (نص) | (لا أحد،) | سلسلة | |
معرف | نص | سلسلة | ||
lemmas | تسلسل (نص) | (لا أحد،) | سلسلة | |
متفرقات | تسلسل (نص) | (لا أحد،) | سلسلة | |
نص | نص | سلسلة | ||
الرموز | تسلسل (نص) | (لا أحد،) | سلسلة | |
upos | تسلسل (ClassLabel) | (لا أحد،) | int64 | |
اكسبوس | تسلسل (نص) | (لا أحد،) | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@misc{11234/1-4758,
title = {Universal Dependencies 2.10},
author = {Zeman, Daniel and Nivre, Joakim and Abrams, Mitchell and Ackermann, Elia and Aepli, No{"e}mi and Aghaei, Hamid and Agi{'c}, {v Z}eljko and Ahmadi, Amir and Ahrenberg, Lars and Ajede, Chika Kennedy and Aleksandravi{v c}i{=u}te, Gabriele and Alfina, Ika and Algom, Avner and Andersen, Erik and Antonsen, Lene and Aplonova, Katya and Aquino, Angelina and Aragon, Carolina and Aranes, Glyd and Aranzabe, Maria Jesus and Arican, Bilge Nas and Arnard{'o}ttir, { H}{'o}runn and Arutie, Gashaw and Arwidarasti, Jessica Naraiswari and Asahara, Masayuki and Aslan, Deniz Baran and Asmazoglu, Cengiz and Ateyah, Luma and Atmaca, Furkan and Attia, Mohammed and Atutxa, Aitziber and Augustinus, Liesbeth and Badmaeva, Elena and Balasubramani, Keerthana and Ballesteros, Miguel and Banerjee, Esha and Bank, Sebastian and Barbu Mititelu, Verginica and Barkarson, Starkaður and Basile, Rodolfo and Basmov, Victoria and Batchelor, Colin and Bauer, John and Bedir, Seyyit Talha and Bengoetxea, Kepa and Ben Moshe, Yifat and Berk, G{"o}zde and Berzak, Yevgeni and Bhat, Irshad Ahmad and Bhat, Riyaz Ahmad and Biagetti, Erica and Bick, Eckhard and Bielinskiene, Agne and Bjarnad{'o}ttir, Krist{'i}n and Blokland, Rogier and Bobicev, Victoria and Boizou, Lo{"i}c and Borges V{"o}lker, Emanuel and B{"o}rstell, Carl and Bosco, Cristina and Bouma, Gosse and Bowman, Sam and Boyd, Adriane and Braggaar, Anouck and Brokaite, Kristina and Burchardt, Aljoscha and Candito, Marie and Caron, Bernard and Caron, Gauthier and Cassidy, Lauren and Cavalcanti, Tatiana and Cebiroglu Eryigit, G{"u}l{s}en and Cecchini, Flavio Massimiliano and Celano, Giuseppe G. A. and {C}{'e}pl{"o}, Slavom{'i}r and Cesur, Neslihan and Cetin, Savas and {C}etinoglu, {"O}zlem and Chalub, Fabricio and Chauhan, Shweta and Chi, Ethan and Chika, Taishi and Cho, Yongseok and Choi, Jinho and Chun, Jayeol and Chung, Juyeon and Cignarella, Alessandra T. and Cinkov{'a}, Silvie and Collomb, Aur{'e}lie and {C}{"o}ltekin, {C}a{g}ri and Connor, Miriam and Corbetta, Daniela and Courtin, Marine and Cristescu, Mihaela and Daniel, Philemon and Davidson, Elizabeth and Dehouck, Mathieu and de Laurentiis, Martina and de Marneffe, Marie-Catherine and de Paiva, Valeria and Derin, Mehmet Oguz and de Souza, Elvis and Diaz de Ilarraza, Arantza and Dickerson, Carly and Dinakaramani, Arawinda and Di Nuovo, Elisa and Dione, Bamba and Dirix, Peter and Dobrovoljc, Kaja and Dozat, Timothy and Droganova, Kira and Dwivedi, Puneet and Eckhoff, Hanne and Eiche, Sandra and Eli, Marhaba and Elkahky, Ali and Ephrem, Binyam and Erina, Olga and Erjavec, Toma{v z} and Etienne, Aline and Evelyn, Wograine and Facundes, Sidney and Farkas, Rich{'a}rd and Favero, Federica and Ferdaousi, Jannatul and Fernanda, Mar{'i}lia and Fernandez Alcalde, Hector and Foster, Jennifer and Freitas, Cl{'a}udia and Fujita, Kazunori and Gajdo{v s}ov{'a}, Katar{'i}na and Galbraith, Daniel and Gamba, Federica and Garcia, Marcos and G{"a}rdenfors, Moa and Garza, Sebastian and Gerardi, Fabr{'i}cio Ferraz and Gerdes, Kim and Ginter, Filip and Godoy, Gustavo and Goenaga, Iakes and Gojenola, Koldo and G{"o}kirmak, Memduh and Goldberg, Yoav and G{'o}mez Guinovart, Xavier and Gonz{'a}lez Saavedra, Berta and Griciute, Bernadeta and Grioni, Matias and Grobol, Lo{"i}c and Gruzitis, Normunds and Guillaume, Bruno and Guillot-Barbance, C{'e}line and G{"u}ng{"o}r, Tunga and Habash, Nizar and Hafsteinsson, Hinrik and Hajic, Jan and Hajic jr., Jan and H{"a}m{"a}l{"a}inen, Mika and Ha My, Linh and Han, Na-Rae and Hanifmuti, Muhammad Yudistira and Harada, Takahiro and Hardwick, Sam and Harris, Kim and Haug, Dag and Heinecke, Johannes and Hellwig, Oliver and Hennig, Felix and Hladk{'a}, Barbora and Hlav{'a}{v c}ov{'a}, Jaroslava and Hociung, Florinel and Hohle, Petter and Hwang, Jena and Ikeda, Takumi and Ingason, Anton Karl and Ion, Radu and Irimia, Elena and Ishola, {O}l{'a}j{'i}d{'e} and Ito, Kaoru and Jannat, Siratun and Jel{'i}nek, Tom{'a}{v s} and Jha, Apoorva and Johannsen, Anders and J{'o}nsd{'o}ttir, Hildur and Jorgensen, Fredrik and Juutinen, Markus and K, Sarveswaran and Ka{c s}ikara, H{"u}ner and Kaasen, Andre and Kabaeva, Nadezhda and Kahane, Sylvain and Kanayama, Hiroshi and Kanerva, Jenna and Kara, Neslihan and Karah{'o}ǧa, Ritv{'a}n and Katz, Boris and Kayadelen, Tolga and Kenney, Jessica and Kettnerov{'a}, V{'a}clava and Kirchner, Jesse and Klementieva, Elena and Klyachko, Elena and K{"o}hn, Arne and K{"o}ksal, Abdullatif and Kopacewicz, Kamil and Korkiakangas, Timo and K{"o}se, Mehmet and Kotsyba, Natalia and Kovalevskaite, Jolanta and Krek, Simon and Krishnamurthy, Parameswari and K{"u}bler, Sandra and Kuyruk{c c}u, O{g}uzhan and Kuzgun, Asli and Kwak, Sookyoung and Laippala, Veronika and Lam, Lucia and Lambertino, Lorenzo and Lando, Tatiana and Larasati, Septina Dian and Lavrentiev, Alexei and Lee, John and Le H{o}ng, Phương and Lenci, Alessandro and Lertpradit, Saran and Leung, Herman and Levina, Maria and Li, Cheuk Ying and Li, Josie and Li, Keying and Li, Yuan and Lim, {KyungTae} and Lima Padovani, Bruna and Lind{'e}n, Krister and Ljube{s}i{'c}, Nikola and Loginova, Olga and Lusito, Stefano and Luthfi, Andry and Luukko, Mikko and Lyashevskaya, Olga and Lynn, Teresa and Macketanz, Vivien and Mahamdi, Menel and Maillard, Jean and Makazhanov, Aibek and Mandl, Michael and Manning, Christopher and Manurung, Ruli and Mar{s}an, B{"u}{s}ra and M{a}r{a}nduc, C{a}t{a}lina and Mare{c}ek, David and Marheinecke, Katrin and Markantonatou, Stella and Mart{'i}nez Alonso, H{'e}ctor and Mart{'i}n Rodr{'i}guez, Lorena and Martins, Andr{'e} and Ma{s}ek, Jan and Matsuda, Hiroshi and Matsumoto, Yuji and Mazzei, Alessandro and {McDonald}, Ryan and {McGuinness}, Sarah and Mendon{c}a, Gustavo and Merzhevich, Tatiana and Miekka, Niko and Mischenkova, Karina and Misirpashayeva, Margarita and Missil{"a}, Anna and Mititelu, C{a}t{a}lin and Mitrofan, Maria and Miyao, Yusuke and Mojiri Foroushani, {AmirHossein} and Moln{'a}r, Judit and Moloodi, Amirsaeid and Montemagni, Simonetta and More, Amir and Moreno Romero, Laura and Moretti, Giovanni and Mori, Keiko Sophie and Mori, Shinsuke and Morioka, Tomohiko and Moro, Shigeki and Mortensen, Bjartur and Moskalevskyi, Bohdan and Muischnek, Kadri and Munro, Robert and Murawaki, Yugo and M{"u}{"u}risep, Kaili and Nainwani, Pinkey and Nakhl{'e}, Mariam and Navarro Horniacek, Juan Ignacio and Nedoluzhko, Anna and Ne{v s}pore-Berzkalne, Gunta and Nevaci, Manuela and Nguy{e}n Th{i}, Lương and Nguy{e}n Th{i} Minh, Huy{e}n and Nikaido, Yoshihiro and Nikolaev, Vitaly and Nitisaroj, Rattima and Nourian, Alireza and Nurmi, Hanna and Ojala, Stina and Ojha, Atul Kr. and Ol{'u}{'o}kun, Ad{e}day{o}̀ and Omura, Mai and Onwuegbuzia, Emeka and Ordan, Noam and Osenova, Petya and {"O}stling, Robert and {O}vrelid, Lilja and {"O}zate{s}, {S}aziye Bet{"u}l and {"O}z{c}elik, Merve and {"O}zg{"u}r, Arzucan and {"O}zt{"u}rk Ba{s}aran, Balkiz and Paccosi, Teresa and Palmero Aprosio, Alessio and Park, Hyunji Hayley and Partanen, Niko and Pascual, Elena and Passarotti, Marco and Patejuk, Agnieszka and Paulino-Passos, Guilherme and Pedonese, Giulia and Peljak-{L}api{n}ska, Angelika and Peng, Siyao and Perez, Cenel-Augusto and Perkova, Natalia and Perrier, Guy and Petrov, Slav and Petrova, Daria and Peverelli, Andrea and Phelan, Jason and Piitulainen, Jussi and Pirinen, Tommi A and Pitler, Emily and Plank, Barbara and Poibeau, Thierry and Ponomareva, Larisa and Popel, Martin and Pretkalni{n}a, Lauma and Pr{'e}vost, Sophie and Prokopidis, Prokopis and Przepi{o}rkowski, Adam and Puolakainen, Tiina and Pyysalo, Sampo and Qi, Peng and R{"a}{"a}bis, Andriela and Rademaker, Alexandre and Rahoman, Mizanur and Rama, Taraka and Ramasamy, Loganathan and Ramisch, Carlos and Rashel, Fam and Rasooli, Mohammad Sadegh and Ravishankar, Vinit and Real, Livy and Rebeja, Petru and Reddy, Siva and Regnault, Mathilde and Rehm, Georg and Riabov, Ivan and Rie{ss}ler, Michael and Rimkut{e}, Erika and Rinaldi, Larissa and Rituma, Laura and Rizqiyah, Putri and Rocha, Luisa and R{"o}gnvaldsson, Eir{'i}kur and Romanenko, Mykhailo and Rosa, Rudolf and Roșca, Valentin and Rovati, Davide and Rozonoyer, Ben and Rudina, Olga and Rueter, Jack and R{'u}narsson, Kristj{'a}n and Sadde, Shoval and Safari, Pegah and Sagot, Beno{i}t and Sahala, Aleksi and Saleh, Shadi and Salomoni, Alessio and Samard{v z}i{'c}, Tanja and Samson, Stephanie and Sanguinetti, Manuela and Saniyar, Ezgi and S{"a}rg, Dage and Saulite, Baiba and Sawanakunanon, Yanin and Saxena, Shefali and Scannell, Kevin and Scarlata, Salvatore and Schneider, Nathan and Schuster, Sebastian and Schwartz, Lane and Seddah, Djam{'e} and Seeker, Wolfgang and Seraji, Mojgan and Shahzadi, Syeda and Shen, Mo and Shimada, Atsuko and Shirasu, Hiroyuki and Shishkina, Yana and Shohibussirri, Muh and Sichinava, Dmitry and Siewert, Janine and Sigurðsson, Einar Freyr and Silveira, Aline and Silveira, Natalia and Simi, Maria and Simionescu, Radu and Simk{'o}, Katalin and {S}imkov{'a}, M{'a}ria and Simov, Kiril and Skachedubova, Maria and Smith, Aaron and Soares-Bastos, Isabela and Sourov, Shafi and Spadine, Carolyn and Sprugnoli, Rachele and Stamou, Vivian and Steingr{'i}msson, Stein{h}{'o}r and Stella, Antonio and Straka, Milan and Strickland, Emmett and Strnadov{'a}, Jana and Suhr, Alane and Sulestio, Yogi Lesmana and Sulubacak, Umut and Suzuki, Shingo and Swanson, Daniel and Sz{'a}nt{'o}, Zsolt and Taguchi, Chihiro and Taji, Dima and Takahashi, Yuta and Tamburini, Fabio and Tan, Mary Ann C. and Tanaka, Takaaki and Tanaya, Dipta and Tavoni, Mirko and Tella, Samson and Tellier, Isabelle and Testori, Marinella and Thomas, Guillaume and Tonelli, Sara and Torga, Liisi and Toska, Marsida and Trosterud, Trond and Trukhina, Anna and Tsarfaty, Reut and T{"u}rk, Utku and Tyers, Francis and Uematsu, Sumire and Untilov, Roman and Ure{v s}ov{'a}, Zde{n}ka and Uria, Larraitz and Uszkoreit, Hans and Utka, Andrius and Vagnoni, Elena and Vajjala, Sowmya and van der Goot, Rob and Vanhove, Martine and van Niekerk, Daniel and van Noord, Gertjan and Varga, Viktor and Vedenina, Uliana and Villemonte de la Clergerie, Eric and Vincze, Veronika and Vlasova, Natalia and Wakasa, Aya and Wallenberg, Joel C. and Wallin, Lars and Walsh, Abigail and Wang, Jing Xian and Washington, Jonathan North and Wendt, Maximilan and Widmer, Paul and Wigderson, Shira and Wijono, Sri Hartati and Williams, Seyi and Wir{'e}n, Mats and Wittern, Christian and Woldemariam, Tsegay and Wong, Tak-sum and Wr{'o}blewska, Alina and Yako, Mary and Yamashita, Kayo and Yamazaki, Naoki and Yan, Chunxiao and Yasuoka, Koichi and Yavrumyan, Marat M. and Yenice, Arife Bet{"u}l and Yildiz, Olcay Taner and Yu, Zhuoran and Yuliawati, Arlisa and {Z}abokrtsk{'y}, Zden{v e}k and Zahra, Shorouq and Zeldes, Amir and Zhou, He and Zhu, Hanzhi and Zhuravleva, Anna and Ziane, Rayan
},
url = {http://hdl.handle.net/11234/1-4758},
note = { {LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal and Applied Linguistics ({ {'U}FAL}), Faculty of Mathematics and Physics, Charles University},
copyright = {Licence Universal Dependencies v2.10},
year = {2022}
}
Universal_dependencies / af_afribooms (التكوين الافتراضي)
وصف التكوين : UD Afrikaans-AfriBooms هو تحويل لبنك AfriBooms Dependency Treebank ، والذي تم شرحه في الأصل باستخدام مجموعة PoS المبسطة وعلاقات التبعية وفقًا لمجموعة فرعية من مجموعة علامات Stanford. تتكون المجموعة من وثائق حكومية عامة. تم اقتراح مجموعة البيانات في "AfriBooms: An Online Treebank for Afrikaans" بواسطة Augustinus et al. (2016) ؛ https://www.aclweb.org/anthology/L16-1107.pdf
حجم التحميل :
2.95 MiB
حجم مجموعة البيانات :
4.02 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 194 |
'test' | 425 |
'train' | 1،315 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / akk_pisandub
وصف التكوين : مجموعة صغيرة من الجمل من النقوش الملكية البابلية.
حجم التحميل :
99.41 KiB
حجم مجموعة البيانات :
126.32 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 101 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / akk_riao
وصف التكوين : UD_Akkadian-RIAO هو بنك شجرة صغير يتكون من 22277 كلمة و 1845 جملة. يمثل هذا مجموعة فرعية سليمة من إجمالي 2211 جملة من النقوش الملكية الآشورية الحديثة المبكرة في القرنين العاشر والتاسع قبل الميلاد. تم استخراج هذه النقوش الملكية من Oracc (Open Richly Annotated Cuneiform Corpus ؛ http://oracc.museum.upenn.edu/riao/ ) ، حيث تم نقش جميع النقوش الملكية الآشورية الجديدة كلمة بكلمة. لغة الكتاب هي اللغة البابلية القياسية ، مع الآشورية في بعض الأحيان ، في حين أن "الأكادية" هو المصطلح الشامل لكل من الآشوريين والبابليين. تم وضع تعليقات توضيحية على بنك الشجرة يدويًا باتباع إرشادات شرح UD.
حجم التحميل :
1.87 MiB
حجم مجموعة البيانات :
2.79 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1874 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / aqz_tudet
وصف التكوين : UD_Akuntsu-TuDeT عبارة عن مجموعة من النصوص المشروحة في Akuntsú. جنبا إلى جنب مع UD_Tupinamba-TuDeT و UD_Munduruku-TuDeT ، UD_Akuntsu-TuDeT جزء من مشروع TuLaR. تم شرح الجمل بواسطة كارولينا أراغون وفابريسيو فيراز جيراردي.
حجم التحميل :
67.25 KiB
حجم مجموعة البيانات :
97.39 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 243 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / sq_tsa
وصف التكوين : إن UD Treebank للألبانية القياسية (TSA) عبارة عن بنك شجرة صغير يتكون من 60 جملة تقابل 922 رمزًا مميزًا. تم جمع البيانات من إدخالات ويكيبيديا مختلفة. تم إنشاء بنك الشجرة هذا يدويًا بشكل أساسي باتباع إرشادات التبعيات العالمية. تم إجراء اللماتة باستخدام lemmatizer https://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/ التي طورها فريق الهيئة الوطنية الألبانية (ماريا موروزوفا ، ألكسندر روساكوف ، تيموفي أرخانجيلسكي). كان وضع العلامات والتحليل الصرفي شبه آلي من خلال نصوص بيثون وتم تصحيحهما يدويًا ، في حين تم تعيين علاقات التبعية يدويًا بشكل كامل. نحن نشجع أي مبادرات لزيادة حجم و / أو تحسين الجودة الشاملة لـ Treebank.
حجم التحميل :
62.00 KiB
حجم مجموعة البيانات :
93.65 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 60 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / am_att
وصف التكوين : UD_Amharic-ATT عبارة عن Treebanks مشروحة يدويًا. تم شرحه لعلامة POS والمعلومات المورفولوجية وعلاقات التبعية. بما أن الأمهرية غنية من الناحية الشكلية ، مؤيدة للإسقاط ، ولغات لها ميزة مضاعفة clitic ، فقد تم تقسيم النقاد يدويًا.
حجم التحميل :
995.32 KiB
حجم مجموعة البيانات :
1.33 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،074 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / grc_perseus
وصف التكوين : يتكون Treebank اليوناني القديم هذا من تحويل تلقائي لمجموعة مختارة من المقاطع من التبعية اليونانية القديمة واللاتينية Treebank 2.1
حجم التحميل :
18.02 MiB
حجم مجموعة البيانات :
24.52 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1137 |
'test' | 1،306 |
'train' | 11476 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / grc_proiel
وصف التكوين : يستند بنك الشجرة اليوناني القديم PROIEL على البيانات اليونانية القديمة من بنك الشجرة PROIEL ، والذي يتم الاحتفاظ به في قسم الفلسفة والكلاسيكيات وتاريخ الفنون والأفكار في جامعة أوسلو. يعتمد التحويل على إصدار 20180408 من PROIEL treebank المتاح من https://github.com/proiel/proiel-treebank/releases يتم التعرف على المعلقين الأصليين في الملفات المتاحة هناك. كود التحويل متاح في Rubygem proiel-cli ، https://github.com/proiel/proiel-cli
حجم التحميل :
22.62 MiB
حجم مجموعة البيانات :
30.92 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،019 |
'test' | 1،047 |
'train' | 15،014 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / apu_ufpa
وصف التكوين : الإصدار الأولي يحتوي على 70 جملة مشروحة. هذا هو أول ضفة شجرة بلغة من عائلة الأراواك. يتم تضمين اللقطات البينية الأصلية في بنك الشجرة ، وتحويلها إلى شرح توضيحي كامل لـ UD هو عملية مستمرة. قيم sent_id (على سبيل المثال: FernandaM2017: Texto-6-19) تمثل الجامع وسنة النشر ومعرف النص ورقم الجملة بالترتيب من النص الأصلي.
حجم التحميل :
95.51 KiB
حجم مجموعة البيانات :
98.49 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 115 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / hbo_ptnk
وصف التكوين : يحتوي PTNK العبرية القديمة UD على أجزاء من Biblia Hebraic Stuttgartensia مع التعليقات التوضيحية المورفولوجية من ETCBC.
حجم التحميل :
3.11 MiB
حجم مجموعة البيانات :
4.28 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 439 |
'test' | 410 |
'train' | 730 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / ar_nyuad
وصف التكوين : يتكون Treebank من 19738 جملة (738889 رمزًا مميزًا) ، ومجالها هو بشكل أساسي الأخبار. التعليق التوضيحي مرخص بموجب شروط CC BY-SA 4.0 ، ويمكن الحصول على PATB الأصلي من موقع الويب الرسمي لـ LDC.
حجم التحميل :
55.87 MiB
حجم مجموعة البيانات :
78.33 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،986 |
'test' | 1963 |
'train' | 15،789 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / ar_padt
وصف التكوين : يستند بنك الشجرة Arabic-PADT UD إلى بنك شجرة التبعية العربية في براغ (PADT) ، الذي تم إنشاؤه في جامعة تشارلز في براغ.
حجم التحميل :
48.84 MiB
حجم مجموعة البيانات :
64.42 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 909 |
'test' | 680 |
'train' | 6075 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / ar_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
1.98 MiB
حجم مجموعة البيانات :
2.34 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / aii_as
وصف التكوين : إن شجرة أوبسالا الآشورية عبارة عن ضفة صغيرة للأشجار من الطراز الآشوري الحديث. يتم جمع المجموعة وتعليقها يدويًا. تم جمع البيانات بشكل عشوائي من كتب مدرسية مختلفة وترجمة قصيرة لـ The Merchant of Venice.
حجم التحميل :
31.99 KiB
حجم مجموعة البيانات :
48.85 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 57 |
- أمثلة ( tfds.as_dataframe ):
استقلالية عالمية / bm_crb
وصف التكوين : بنك شجرة UD Bambara هو قسم من Corpus Référence du Bambara مشروح أصلاً مع التبعيات العالمية.
حجم التحميل :
873.37 KiB
حجم مجموعة البيانات :
1.25 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1026 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / eu_bdt
وصف التكوين : يعتمد بنك الأشجار الباسكي UD على التحويل التلقائي من جزء من بنك الباسك التبعية (BDT) ، الذي تم إنشاؤه في جامعة بلاد الباسك بواسطة مجموعة أبحاث IXA NLP. يتكون بنك الشجرة من 8.993 جملة (121.443 رمزًا) ويغطي بشكل أساسي النصوص الأدبية والصحفية.
حجم التحميل :
7.83 MiB
حجم مجموعة البيانات :
11.74 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،798 |
'test' | 1799 |
'train' | 5،396 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / bej_nsc
وصف التكوين : مجموعة التبعيات العالمية للبجا ، فرع شمال كوشيت من الشعبة الأفرو آسيوية المستخدمة بشكل رئيسي في السودان ومصر وإريتريا.
حجم التحميل :
136.52 KiB
حجم مجموعة البيانات :
168.15 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 56 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / be_hse
وصف التكوين : يعتمد بنك شجرة UD البيلاروسي على عينة من النصوص الإخبارية المدرجة في العقرب الفرعي الموازي البيلاروسي الروسي للمجموعة الوطنية الروسية ، البحث عبر الإنترنت متاح على: http://ruscorpora.ru/search-para-be.html
حجم التحميل :
30.04 MiB
حجم مجموعة البيانات :
39.88 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،301 |
'test' | 1،077 |
'train' | 22853 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / bn_bru
وصف التكوين : تم إنشاء بنك الشجرة BRU Bengali في جامعة Begum Rokeya ، Rangpur ، بواسطة أعضاء Semantics Lab.
حجم التحميل :
38.41 KiB
حجم مجموعة البيانات :
51.42 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 56 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / bho_bhtb
وصف التكوين : يتكون Bhojpuri UD Treebank (BHTB) v2.6 من 6664 رمزًا (357 جملة). يعتبر Treebank هذا جزءًا من مشروع بنك الشجرة التابع للاعتماد العالمي. في البداية ، بدأته أنا (أتول) في جامعة جواهر لال نهرو ، نيودلهي أثناء عمل بحث الدكتوراه. تحتوي بيانات BHTB على تعليق توضيحي نحوي وفقًا لمخطط دائرة التبعية ، بالإضافة إلى العلامات المورفولوجية والليمس. في هذه البيانات ، يتم شرح XPOS وفقًا لمجموعة علامات مكتب المعايير الهندية (BIS) جزء من الكلام (POS).
حجم التحميل :
599.76 KiB
حجم مجموعة البيانات :
817.23 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 357 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / br_keb
وصف التكوين : UD Breton-KEB عبارة عن بنك شجرة لبريتون تم شرحه يدويًا وفقًا لإرشادات التبعيات العالمية. تأتي إرشادات الترميز والتعليق التوضيحي المورفولوجي من محلل مورفولوجي للحالة المحدودة لبريتون تم إصداره كجزء من مشروع Apertium.
حجم التحميل :
663.63 KiB
حجم مجموعة البيانات :
863.36 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 888 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / bg_btb
وصف التكوين : يعتمد UD_Bulgarian-BTB على BulTreeBank القائم على HPSG ، والذي تم إنشاؤه في معهد تكنولوجيا المعلومات والاتصالات ، أكاديمية العلوم البلغارية. الأصل يتكون من 215000 رمز (أكثر من 15000 جملة).
حجم التحميل :
14.22 MiB
حجم مجموعة البيانات :
20.01 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،115 |
'test' | 1116 |
'train' | 8907 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / bxr_bdt
وصف التكوين : تم وضع تعليقات توضيحية على بنك الشجرة UD Buryat يدويًا في UD ويحتوي على جمل كتاب نحوي ، إلى جانب الأخبار وبعض الخيال.
حجم التحميل :
710.23 KiB
حجم مجموعة البيانات :
1018.12 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 908 |
'train' | 19 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / yue_hk
وصف التكوين : ضفة شجرة كانتونيز (بالحروف الصينية التقليدية) لترجمات الأفلام والإجراءات التشريعية في هونغ كونغ ، بالتوازي مع بنك الشجرة الصيني-هونج كونج.
حجم التحميل :
693.38 KiB
حجم مجموعة البيانات :
1.04 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1004 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / ca_ancora
وصف التكوين : البيانات الكاتالونية من مجموعة AnCora.
حجم التحميل :
48.14 MiB
حجم مجموعة البيانات :
64.03 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،709 |
'test' | 1،846 |
'train' | 13123 |
- أمثلة ( tfds.as_dataframe ):
استقلالية عالمية / ceb_gja
وصف التكوين : UD_Cebuano_GJA عبارة عن مجموعة من جمل عينة Cebuano المشروحة مأخوذة عشوائيًا من ثلاثة مصادر مختلفة: عينات ساهم بها المجتمع من موقع Tatoeba ، كتاب قواعد Cebuano بواسطة Bunye & Yap (1971) وقواعد مرجعية لـ Tanangkinsing على Cebuano (2011). هذا المشروع قيد التنفيذ حاليا.
حجم التحميل :
99.30 KiB
حجم مجموعة البيانات :
136.74 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 188 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / zh_cfl
وصف التكوين : تم شرح بنك الشجرة Chinese-CFL UD يدويًا بواسطة Keying Li مع مراجعات يدوية طفيفة بواسطة Herman Leung و John Lee في جامعة مدينة هونغ كونغ ، استنادًا إلى مقالات كتبها متعلمي لغة الماندرين الصينية كلغة أجنبية. البيانات باللغة الصينية المبسطة.
حجم التحميل :
375.71 KiB
حجم مجموعة البيانات :
558.45 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 451 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / zh_gsd
وصف التهيئة : التبعيات العالمية الصينية التقليدية Treebank التي تم شرحها وتحويلها بواسطة Google.
حجم التحميل :
6.48 MiB
حجم مجموعة البيانات :
8.88 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 3،997 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / zh_gsdsimp
وصف التكوين : مجموعة بيانات التبعيات العالمية الصينية المبسطة المحولة من مجموعة بيانات GSD (التقليدية) مع تصحيحات يدوية.
حجم التحميل :
6.48 MiB
حجم مجموعة البيانات :
8.88 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 3،997 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / zh_hk
وصف التكوين : ضفة شجرة صينية تقليدية لترجمات الأفلام والإجراءات التشريعية في هونغ كونغ ، بالتوازي مع بنك الشجرة الكانتوني - هونج كونج.
حجم التحميل :
482.85 KiB
حجم مجموعة البيانات :
779.66 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1004 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / zh_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
1.53 MiB
حجم مجموعة البيانات :
1.95 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / ckt_hse
وصف التكوين : هذه البيانات عبارة عن تعليق توضيحي يدوي للمجموعة من مجموعة الوسائط المتعددة المشروحة لمشروع Chuklang ، وهي مجموعة اللهجة لمتغير Amguema في Chukchi.
حجم التحميل :
793.16 KiB
حجم مجموعة البيانات :
828.50 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1004 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / lzh_kyoto
وصف التكوين : التبعيات العالمية الصينية الكلاسيكية Treebank مشروحة وتحويلها من قبل معهد البحوث في العلوم الإنسانية ، جامعة كيوتو.
حجم التحميل :
26.86 MiB
حجم مجموعة البيانات :
39.40 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 5687 |
'test' | 4932 |
'train' | 48569 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / cop_scriptorium
وصف التكوين : يحتوي UD Coptic على نصوص قبطية ساهيدية مشروحة يدويًا ، بما في ذلك النصوص التوراتية والخطب والرسائل وسير القديسين.
حجم التحميل :
4.73 MiB
حجم مجموعة البيانات :
6.12 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 381 |
'test' | 403 |
'train' | 1،227 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / hr_set
وصف التكوين : يستند بنك شجرة UD الكرواتي إلى امتداد مجموعة SETimes-HR ، وهي مجموعة hr500k.
حجم التحميل :
14.41 MiB
حجم مجموعة البيانات :
20.43 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 960 |
'test' | 1136 |
'train' | 6914 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / cs_cac
وصف التكوين : يستند بنك الشجرة UD_Czech-CAC إلى الهيكل الأكاديمي التشيكي 2.0 (CAC ؛ Český akademický korpus ؛ ČAK) ، الذي تم إنشاؤه في جامعة تشارلز في براغ.
حجم التحميل :
53.72 MiB
حجم مجموعة البيانات :
73.74 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 603 |
'test' | 628 |
'train' | 23478 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / cs_cltt
وصف التكوين : يستند بنك الشجرة UD_Czech-CLTT إلى Czech Legal Text Treebank 1.0 ، الذي تم إنشاؤه في جامعة تشارلز في براغ.
حجم التحميل :
3.57 MiB
حجم مجموعة البيانات :
4.73 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 129 |
'test' | 136 |
'train' | 860 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / cs_fictree
وصف التهيئة: FicTree عبارة عن بنك شجرة للخيال التشيكي ، يتم تحويله تلقائيًا إلى تنسيق UD. تم بناء بنك الشجرة في جامعة تشارلز في براغ.
حجم التحميل :
16.65 MiB
حجم مجموعة البيانات :
23.29 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،309 |
'test' | 1،291 |
'train' | 10،160 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / cs_pdt
وصف التكوين : يستند بنك الشجرة Czech-PDT UD إلى براغ تبعية Treebank 3.0 (PDT) ، الذي تم إنشاؤه في جامعة تشارلز في براغ.
حجم التحميل :
164.29 MiB
حجم مجموعة البيانات :
224.30 MiB
التخزين المؤقت التلقائي ( التوثيق ): نعم (مطور ، اختبار) ، فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 9،270 |
'test' | 10،148 |
'train' | 68495 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / cs_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
2.14 MiB
حجم مجموعة البيانات :
2.76 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / da_ddt
وصف التهيئة : بنك الشجرة الدنماركي UD هو تحويل لبنك التبعية الدنماركي.
حجم التحميل :
6.13 MiB
حجم مجموعة البيانات :
9.15 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 564 |
'test' | 565 |
'train' | 4383 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / nl_alpino
وصف التكوين : تتكون هذه المجموعة من عينات من بنوك الأشجار المختلفة المشروحة في جامعة جرونينجن باستخدام أدوات وإرشادات التعليقات التوضيحية في Alpino.
حجم التحميل :
15.98 MiB
حجم مجموعة البيانات :
21.03 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 718 |
'test' | 596 |
'train' | 12،289 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / nl_lassysmall
وصف التكوين : تحتوي هذه المجموعة على جمل من قسم Wikipedia في Lassy Small Treebank. تم إنشاء التعليق التوضيحي العالمي تلقائيًا من التعليق التوضيحي الأصلي في Lassy.
حجم التحميل :
7.61 MiB
حجم مجموعة البيانات :
9.86 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 676 |
'test' | 876 |
'train' | 5789 |
- أمثلة ( tfds.as_dataframe ):
استقلالية عالمية / en_esl
وصف التكوين : UD English-ESL / Treebank of Learner English (TLE) يحتوي على علامة POS اليدوية وشروح التبعية لـ 5،124 جمل الإنجليزية كلغة ثانية (ESL) مستمدة من مجموعة بيانات Cambridge Learner Corpus First Certificate in English (FCE).
حجم التحميل :
3.20 MiB
حجم مجموعة البيانات :
4.72 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 500 |
'test' | 500 |
'train' | 4،124 |
- أمثلة ( tfds.as_dataframe ):
استقلالية عالمية / en_ewt
وصف التكوين : مجموعة التبعيات العالمية الذهبية المعيارية للغة الإنجليزية ، والتي تم إنشاؤها فوق المواد المصدر للغة الإنجليزية Web Treebank LDC2012T13 ( https://catalog.ldc.upenn.edu/LDC2012T13 ).
حجم التحميل :
16.37 MiB
حجم مجموعة البيانات :
23.60 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 2001 |
'test' | 2077 |
'train' | 12.543 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / en_gum
وصف التكوين : التعليقات التوضيحية لبناء جملة التبعيات العامة من مجموعة GUM ( https://corpling.uis.georgetown.edu/gum/ ).
حجم التحميل :
13.81 MiB
حجم مجموعة البيانات :
18.21 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1117 |
'test' | 1،096 |
'train' | 6917 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / en_gumreddit
وصف التكوين : التعليقات التوضيحية لبناء جملة التبعيات العامة من جزء Reddit من مجموعة GUM ( https://corpling.uis.georgetown.edu/gum/ )
حجم التحميل :
1.47 MiB
حجم مجموعة البيانات :
2.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 104 |
'test' | 105 |
'train' | 686 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / en_lines
وصف التكوين : UD English_LinES هو النصف الإنجليزي من LinES Parallel Treebank مع شرح التبعية الأصلي الذي تم تحويله تلقائيًا أولاً إلى التبعيات العامة ثم تمت مراجعته جزئيًا. تغطي محتوياته المطبوعات ودليل على الإنترنت وبيانات يوروبارل.
حجم التحميل :
5.27 MiB
حجم مجموعة البيانات :
7.54 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1032 |
'test' | 1035 |
'train' | 3،176 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / en_atis
وصف التكوين : UD Atis Treebank عبارة عن بنك شجرة تم شرحه يدويًا يتكون من الجمل الموجودة في مجموعة بيانات Atis (معلومات السفر عبر الخطوط الجوية) والتي تتضمن نسخ الكلام البشري للأشخاص الذين يطلبون معلومات الرحلة على أنظمة الاستفسار الآلية.
حجم التحميل :
3.06 MiB
حجم مجموعة البيانات :
4.76 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 572 |
'test' | 586 |
'train' | 4274 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / ar_partut
وصف التكوين : UD_English-ParTUT عبارة عن تحويل لبنك شجرة متوازي متعدد اللغات تم تطويره في جامعة تورين ، ويتألف من مجموعة متنوعة من أنواع النصوص ، بما في ذلك المحادثات والنصوص القانونية ومقالات ويكيبيديا ، من بين أمور أخرى.
حجم التحميل :
2.59 MiB
حجم مجموعة البيانات :
3.65 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 156 |
'test' | 153 |
'train' | 1،781 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / ar_pronouns
وصف التكوين : ضمائر اللغة الإنجليزية UD عبارة عن مجموعة بيانات تم إنشاؤها لجعل التعرف على الضمائر أكثر دقة وتوزيعًا أكثر توازناً بين الجنسين. تستهدف مجموعة البيانات مبدئيًا ضمائر المضافات المستقلة ، "لها" ، (المستقلة) "له" ، (المفرد) "خاصتهم" ، "خاصتي" و (المفرد) "لك".
حجم التحميل :
138.08 KiB
حجم مجموعة البيانات :
186.09 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 285 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / en_pud
وصف التكوين : هذا هو الجزء الإنجليزي من البنوك الشجرية المتوازية العالمية (PUD) التي تم إنشاؤها للمهمة المشتركة لـ CoNLL 2017 حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية ( http://universaldependencies.org/conll17/ ).
حجم التحميل :
1.28 MiB
حجم مجموعة البيانات :
1.82 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / myv_jr
وصف التكوين : UD Erzya هو التعليق التوضيحي الأصلي (CoNLL-U) للنصوص بلغة Erzya ، وهو يتكون في الأصل من عينة من عدد من مؤلفي الخيال الذين يكتبون أصولًا بلغة Erzya.
حجم التحميل :
1.88 MiB
حجم مجموعة البيانات :
2.47 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،714 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / et_edt
وصف التكوين : UD Estonian هو نسخة محولة من Estonian Dependency Treebank (EDT) ، وقد تم شرحه في الأصل في مخطط التعليقات التوضيحية لقواعد النحو (CG) ، ويتألف من أنواع روائية ونصوص صحفية ونصوص علمية. يحتوي بنك الشجرة على 30972 شجرة و 437.769 رمزًا.
حجم التحميل :
31.09 MiB
حجم مجموعة البيانات :
45.98 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 3،127 |
'test' | 3214 |
'train' | 24،632 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / et_ewt
وصف التكوين : يتكون بنك شجرة UD EWT من أنواع مختلفة من الوسائط الجديدة. يحتوي بنك الشجرة على 4493 شجرة و 56399 رمزًا.
حجم التحميل :
5.35 MiB
حجم مجموعة البيانات :
8.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 833 |
'test' | 913 |
'train' | 4579 |
- أمثلة ( tfds.as_dataframe ):
استقلالية عالمية / fo_farpahc
وصف التكوين : UD_Icelandic-FarPaHC هو تحويل لمجموعة Faroese Parsed Historical Corpus (FarPaHC) إلى مخطط التبعيات العالمية. تم إجراء التحويل باستخدام UDConverter.
حجم التحميل :
2.09 MiB
حجم مجموعة البيانات :
2.84 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 300 |
'test' | 301 |
'train' | 1،020 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fo_oft
وصف التكوين : هذا هو ضفة شجرة من جزر فارو استناداً إلى ويكيبيديا جزر فارو.
حجم التحميل :
783.86 KiB
حجم مجموعة البيانات :
1.07 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،208 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fi_ftb
وصف التكوين : يتكون FinnTreeBank 1 من أمثلة نحوية مشروحة يدويًا من VISK. تم تحويل إصدار UD من FinnTreeBank 1 من نموذج التعليق التوضيحي الأصلي بنص ثم تمت مراجعته يدويًا لاحقًا.
حجم التحميل :
12.52 MiB
حجم مجموعة البيانات :
18.45 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،875 |
'test' | 1،867 |
'train' | 14981 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fi_ood
وصف التكوين : Finnish-OOD عبارة عن اختبار خارجي خارج النطاق تم تعيينه لـ Finnish-TDT المشروحة أصلاً في مخطط UD.
حجم التحميل :
1.40 MiB
حجم مجموعة البيانات :
2.11 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،122 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fi_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
1.34 MiB
حجم مجموعة البيانات :
1.80 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fi_tdt
وصف التكوين : يعتمد UD_Finnish-TDT على بنك الشجرة التابع لتوركو (TDT) ، وهو بنك شجرة تبعية واسع النطاق للغة الفنلندية العامة يغطي العديد من الأنواع. أعقب التحويل إلى UD عمليات فحص وتصحيحات يدوية واسعة النطاق ، ويلتزم بنك الشجرة عن كثب بإرشادات UD.
حجم التحميل :
15.84 MiB
حجم مجموعة البيانات :
23.17 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،364 |
'test' | 1،555 |
'train' | 12.217 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fr_fqb
وصف التكوين : مجموعة UD_French-FQB عبارة عن تحويل تلقائي لـ French QuestionBank v1 ، وهي مجموعة مكونة بالكامل من الأسئلة.
حجم التحميل :
1.47 MiB
حجم مجموعة البيانات :
2.32 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،289 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / fr_ftb
وصف التكوين : إصدار التبعية العالمية من بنك الشجرة الفرنسي (Abeillé et al. ، 2003) ، المشار إليه فيما يلي بـ UD_French-FTB ، عبارة عن مجموعة من الجمل من جريدة Le Monde ، تم شرحها يدويًا في البداية باستخدام المعلومات المورفولوجية وبنية العبارة ثم تحويلها إلى نظام شرح التبعيات العالمية.
حجم التحميل :
29.49 MiB
حجم مجموعة البيانات :
44.93 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،235 |
'test' | 2541 |
'train' | 14759 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / fr_gsd
وصف التكوين : تم تحويل UD_French-GSD في عام 2015 من إصدار رأس المحتوى الخاص بالاعتماد العالمي treebank v2.0 ( https://github.com/ryanmcd/uni-dep-tb ). يتم تحديثه منذ عام 2015 بشكل مستقل عن المصدر السابق.
حجم التحميل :
24.38 MiB
حجم مجموعة البيانات :
35.77 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،476 |
'test' | 416 |
'train' | 14،449 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fr_partut
وصف التكوين : UD_French-ParTUT عبارة عن تحويل لبنك شجرة متوازي متعدد اللغات تم تطويره في جامعة تورين ، ويتألف من مجموعة متنوعة من أنواع النصوص ، بما في ذلك المحادثات والنصوص القانونية ومقالات ويكيبيديا ، من بين أمور أخرى.
حجم التحميل :
1.74 MiB
حجم مجموعة البيانات :
2.44 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 107 |
'test' | 110 |
'train' | 803 |
- أمثلة ( tfds.as_dataframe ):
global_dependencies / fr_rhapsodie
وصف التكوين : مجموعة التبعيات العالمية للفرنسية المنطوقة.
حجم التحميل :
3.00 MiB
حجم مجموعة البيانات :
4.10 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،082 |
'test' | 840 |
'train' | 1،288 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / قصص_ فرنسية
وصف التكوين : قصص باريس هي مجموعة من اللغات الفرنسية الشفوية تم جمعها ونسخها من قبل طلاب اللغويات من جامعة السوربون نوفيل وتم تصحيحها من قبل طلاب من درجة الماجستير المتعددة في اللغويات الحاسوبية (Inalco ، Paris Nanterre ، Sorbonne Nouvelle) بين عامي 2017 و 2021. وتحتوي على مونولوجات و حوارات المتحدثين الذين يعيشون في المنطقة الباريسية.
حجم التحميل :
1.97 MiB
حجم مجموعة البيانات :
2.70 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 547 |
'train' | 1،216 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / fr_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
1.71 MiB
حجم مجموعة البيانات :
2.24 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / fr_sequoia
وصف التكوين : UD_French-Sequoia هو تحويل تلقائي لمجموعة Sequoia Treebank corpus French Sequoia corpus.
حجم التحميل :
4.21 MiB
حجم مجموعة البيانات :
6.18 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 412 |
'test' | 456 |
'train' | 2231 |
- أمثلة ( tfds.as_dataframe ):
اعتمادية_ عالمية / gl_ctg
وصف التكوين : يعتمد بنك الشجرة الجاليكية UD على التحليل التلقائي لمجموعة Galician Technical Corpus ( http://sli.uvigo.gal/CTG ) التي تم إنشاؤها في جامعة Vigo بواسطة مجموعة أبحاث TALG NLP.
حجم التحميل :
7.85 MiB
حجم مجموعة البيانات :
10.81 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 860 |
'test' | 861 |
'train' | 2،272 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / gl_treegal
وصف التكوين : إن Galician-TreeGal عبارة عن بنك شجرة لـ Galician تم تطويره في LyS Group (Universidade da Coruña).
حجم التحميل :
1.66 MiB
حجم مجموعة البيانات :
2.35 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 400 |
'train' | 600 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / de_gsd
وصف التهيئة : يتم تحويل UD الألمانية من إصدار رأس المحتوى الخاص بالاعتماد العالمي treebank v2.0 (قديم).
حجم التحميل :
20.69 MiB
حجم مجموعة البيانات :
29.60 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 799 |
'test' | 977 |
'train' | 13814 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / de_hdt
وصف التهيئة : UD German-HDT هو تحويل لبنك هامبورغ التبعية ، تم إنشاؤه في جامعة هامبورغ من خلال التعليقات التوضيحية اليدوية جنبًا إلى جنب مع معيار للجمل التوضيحية شكليًا وتركيبيًا بالإضافة إلى محلل قائم على القيود.
حجم التحميل :
242.97 MiB
حجم مجموعة البيانات :
347.93 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 18،434 |
'test' | 18459 |
'train' | 153،035 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / de_lit
وصف التكوين : يهدف بنك الشجرة هذا إلى جمع نصوص التاريخ الأدبي الألماني. حاليًا ، تستضيف شظايا من الرومانسية المبكرة ، أي نصوص تشبه قول مأثور تتعامل بشكل أساسي مع القضايا الفلسفية المتعلقة بالفن والجمال والموضوعات ذات الصلة.
حجم التحميل :
1.97 MiB
حجم مجموعة البيانات :
2.49 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،922 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / de_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
1.65 MiB
حجم مجموعة البيانات :
2.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
الاعتماد العالمي / got_proiel
وصف التكوين : يستند بنك الشجرة القوطي UD على البيانات القوطية من بنك الشجرة PROIEL ، ويتكون من ترجمة Wulfila للكتاب المقدس.
حجم التحميل :
4.98 MiB
حجم مجموعة البيانات :
7.17 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 985 |
'test' | 1،029 |
'train' | 3،387 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / el_gdt
وصف التكوين : بنك الشجرة اليوناني UD (UD_Greek-GDT) مشتق من التبعية اليونانية Treebank ( http://gdt.ilsp.gr ) ، وهو مورد تم تطويره وصيانته بواسطة باحثين في معهد معالجة اللغة والكلام / أثينا آر سي ( http://www.ilsp.gr ).
حجم التحميل :
5.52 MiB
حجم مجموعة البيانات :
7.49 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 403 |
'test' | 456 |
'train' | 1،662 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / gub_tudet
وصف التكوين : UD_Guajajara-TuDeT عبارة عن مجموعة من الجمل المشروحة في Guajajara. الجمل تنبع من مصادر متعددة مثل أوصاف اللغة والقصص القصيرة والقواميس والترجمات من العهد الجديد. شرح الجملة والتوثيق من قبل لورينا مارتين رودريغيز وفابريسيو فيراز جيراردي.
حجم التحميل :
683.38 KiB
حجم مجموعة البيانات :
738.09 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،126 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / gn_oldtudet
وصف التكوين : UD_Guarani-OldTuDeT عبارة عن مجموعة من النصوص المشروحة بلغة Guaraní القديمة. يتم شرح جميع المصادر المعروفة في هذه اللغة: الكاثوليكيات ، والقواعد النحوية (القرنان السابع عشر والثامن عشر) ، والجمل من القواميس ، ونصوص أخرى. شرح الجملة والتوثيق من قبل فابريسيو فيراز جيراردي ولورينا مارتين رودريغيز.
حجم التحميل :
18.93 KiB
حجم مجموعة البيانات :
24.71 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 59 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / he_htb
وصف التكوين : مجموعة التبعيات العالمية للغة العبرية.
حجم التحميل :
11.64 MiB
حجم مجموعة البيانات :
16.10 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 484 |
'test' | 491 |
'train' | 5241 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / he_iahltwiki
وصف التكوين : مجموعة فرعية متاحة للجمهور من قسم Wikipedia IAHLT UD Hebrew Treebank ( https://www.iahlt.org/ )
حجم التحميل :
10.30 MiB
حجم مجموعة البيانات :
14.16 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 348 |
'test' | 393 |
'train' | 4298 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / qfn_fame
وصف التكوين : UD_Frisian_Dutch-Fame عبارة عن مجموعة مختارة من 400 جملة من FAME! مجموعة الكلام التي كتبها يلماز وآخرون. (2016 أ ، 2016 ب). يتم وضع تعليقات توضيحية على بنك الشجرة يدويًا باستخدام مخطط UD.
حجم التحميل :
232.57 KiB
حجم مجموعة البيانات :
290.88 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 400 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / qhe_hiencs
وصف التهيئة : يستند بنك الشجرة للتبديل بين الرموز الهندية والإنجليزية على تغريدات تبديل الشفرة لمتحدثين متعددي اللغات الهندية والإنجليزية (معظمهم من الهند) على تويتر. يتم شرح بنك الشجرة يدويًا باستخدام مخطط UD. تم شرح مجموعات التدريب والتقييمات بشكل منفصل من قبل المعلقين المختلفين باستخدام إرشادات UD v2 و v1 على التوالي. يتم تحويل مجموعات التقييم تلقائيًا من UD v1 إلى v2.
حجم التحميل :
893.15 KiB
حجم مجموعة البيانات :
1.53 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 225 |
'test' | 225 |
'train' | 1448 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / hi_hdtb
وصف التهيئة : يستند بنك الشجرة الهندي UD إلى Indian Dependency Treebank (HDTB) ، الذي تم إنشاؤه في IIIT Hyderabad ، الهند.
حجم التحميل :
49.18 MiB
حجم مجموعة البيانات :
68.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1،659 |
'test' | 1،684 |
'train' | 13304 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / hi_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
2.20 MiB
حجم مجموعة البيانات :
2.82 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / hu_szeged
وصف التكوين : بنك الشجرة المجري UD مشتق من Szeged Dependency Treebank (Vincze et al. 2010).
حجم التحميل :
2.92 MiB
حجم مجموعة البيانات :
4.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 441 |
'test' | 449 |
'train' | 910 |
- أمثلة ( tfds.as_dataframe ):
استقلالية عالمية / حديثة
وصف التهيئة: UD_Icelandic-Modern هو تحويل للإضافات الحديثة إلى المجموعة التاريخية الموزعة الآيسلندية (IcePaHC) إلى مخطط التبعيات العالمية.
حجم التحميل :
9.02 MiB
حجم مجموعة البيانات :
12.32 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 784 |
'test' | 768 |
'train' | 5376 |
- أمثلة ( tfds.as_dataframe ):
التبعية العالمية / is_icepahc
وصف التكوين : UD_Icelandic-IcePaHC هو تحويل للمجموعة التاريخية الموزعة الآيسلندية (IcePaHC) إلى مخطط التبعيات العالمية. تم إجراء التحويل باستخدام UDConverter.
حجم التحميل :
81.16 MiB
حجم مجموعة البيانات :
112.07 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 4،865 |
'test' | 5157 |
'train' | 34،007 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / is_pud
وصف التهيئة : آيسلندي- PUD هو الجزء الأيسلندي من بنوك الأشجار ذات التبعيات العالمية المتوازية (PUD).
حجم التحميل :
1.45 MiB
حجم مجموعة البيانات :
1.89 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / id_csui
وصف التكوين : UD Indonesian-CSUI هو تحويل من بنك شجرة دائرة إندونيسي في تنسيق Penn Treebank المسمى Kethu والذي كان أيضًا تحويلًا من بنك شجرة دائري تم بناؤه بواسطة Dinakaramani et al. (2015). قمنا بتسمية بنك الشجرة الإندونيسي- CSUI ، حيث تم بناء جميع الإصدارات الثلاثة من ضفاف الأشجار في كلية علوم الكمبيوتر ، جامعة إندونيسيا.
حجم التحميل :
1.62 MiB
حجم مجموعة البيانات :
1.97 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 374 |
'train' | 656 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / id_gsd
وصف التكوين : يتم تحويل UD الإندونيسي من إصدار رأس المحتوى الخاص بالاعتماد العالمي treebank v2.0 (قديم).
حجم التحميل :
9.15 MiB
حجم مجموعة البيانات :
11.25 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 559 |
'test' | 557 |
'train' | 4،482 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / id_pud
وصف التكوين : هذا جزء من البنوك الشجرية المتوازية العامة (PUD) التي تم إنشاؤها لمهمة CoNLL 2017 المشتركة حول التحليل متعدد اللغات من النص الخام إلى التبعيات العالمية.
حجم التحميل :
1.10 MiB
حجم مجموعة البيانات :
1.44 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،000 |
- أمثلة ( tfds.as_dataframe ):
الاستقلالية العالمية / ga_idt
وصف التهيئة : شجرة شجرة ذات تبعيات عالمية 4910 جملة للأيرلندية الحديثة.
حجم التحميل :
7.62 MiB
حجم مجموعة البيانات :
10.77 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 451 |
'test' | 454 |
'train' | 4005 |
- أمثلة ( tfds.as_dataframe ):
Universal_dependencies / ga_twittirish
وصف التكوين : بنك شجرة التبعيات العالمية من 866 تغريدة باللغة الأيرلندية الحديثة.
حجم التحميل :
782.30 KiB
حجم مجموعة البيانات :
1.13 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 866 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / it_isdt
وصف التكوين : تم الحصول على المجموعة الإيطالية المشروحة وفقًا لمخطط التعليقات التوضيحية UD عن طريق التحويل من ISDT (تبعية ستانفورد الإيطالية Treebank) ، والتي تم إصدارها لتحليل التبعية المهمة المشتركة لـ Evalita-2014 (Bosco et al. 2014).
حجم التحميل :
20.03 MiB
حجم مجموعة البيانات :
29.18 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 564 |
'test' | 482 |
'train' | 13121 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / it_partut
وصف التكوين : UD_Italian-ParTUT عبارة عن تحويل لبنك شجرة متوازي متعدد اللغات تم تطويره في جامعة تورين ، ويتألف من مجموعة متنوعة من أنواع النصوص ، بما في ذلك المحادثات والنصوص القانونية ومقالات ويكيبيديا ، من بين أمور أخرى.
حجم التحميل :
3.42 MiB
حجم مجموعة البيانات :
4.83 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 156 |
'test' | 153 |
'train' | 1،781 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / it_postwita
وصف التكوين : PoSTWITA-UD عبارة عن مجموعة من التغريدات الإيطالية المشروحة في التبعيات العالمية التي يمكن استغلالها لتدريب أنظمة البرمجة اللغوية العصبية لتحسين أدائها على نصوص وسائل التواصل الاجتماعي.
حجم التحميل :
7.27 MiB
حجم مجموعة البيانات :
10.47 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 670 |
'test' | 674 |
'train' | 5،368 |
- أمثلة ( tfds.as_dataframe ):
التبعيات العالمية / it_markit
وصف التكوين : إنه MarkIT الجديد: بنك الشجرة الإيطالي للإنشاءات المميزة. Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)
Download size :
2.48 MiB
Dataset size :
3.44 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 341 |
'test' | 341 |
'train' | 613 |
- أمثلة ( tfds.as_dataframe ):
universal_dependencies/it_valico
Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.
Download size :
520.45 KiB
Dataset size :
657.38 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 398 |
- أمثلة ( tfds.as_dataframe ):
universal_dependencies/it_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.56 MiB
Dataset size :
2.05 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ):
universal_dependencies/it_twittiro
Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.
Download size :
1.81 MiB
Dataset size :
2.51 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 144 |
'test' | 142 |
'train' | 1,138 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/it_vit
Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).
Download size :
16.77 MiB
Dataset size :
23.72 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 743 |
'test' | 1,067 |
'train' | 8,277 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ja_pudluw
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
4.37 MiB
Dataset size :
5.11 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ja_bccwjluw
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).
Download size :
59.20 MiB
Dataset size :
100.36 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 8,427 |
'test' | 7,881 |
'train' | 40,801 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ja_gsdluw
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.
Download size :
28.31 MiB
Dataset size :
33.97 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 507 |
'test' | 543 |
'train' | 7,050 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ja_bccwj
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).
Download size :
93.05 MiB
Dataset size :
157.62 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 8,427 |
'test' | 7,881 |
'train' | 40,801 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ja_gsd
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.
Download size :
43.21 MiB
Dataset size :
52.59 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 507 |
'test' | 543 |
'train' | 7,050 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ja_modern
Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).
Download size :
2.06 MiB
Dataset size :
2.70 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 822 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ja_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies .
Download size :
6.48 MiB
Dataset size :
7.75 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/jv_csui
Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.
Download size :
141.40 KiB
Dataset size :
171.69 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 125 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/urb_tudet
Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.
Download size :
24.74 KiB
Dataset size :
33.60 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 83 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/xnr_kdtb
Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.
Download size :
132.92 KiB
Dataset size :
196.42 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 288 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/krl_kkpp
Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.
Download size :
220.80 KiB
Dataset size :
317.02 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 228 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/kk_ktb
Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.
Download size :
833.88 KiB
Dataset size :
1.15 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,047 |
'train' | 31 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/arr_tudet
Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.
Download size :
174.70 KiB
Dataset size :
259.24 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 674 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/kfm_aha
Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.
Download size :
6.14 KiB
Dataset size :
7.56 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 10 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/quc_iu
Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.
Download size :
823.85 KiB
Dataset size :
1.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,435 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/koi_uh
Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.
Download size :
99.43 KiB
Dataset size :
118.77 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 100 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/kpv_ikdp
Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.
Download size :
202.88 KiB
Dataset size :
273.92 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 214 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/kpv_lattice
Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.
Download size :
741.82 KiB
Dataset size :
989.46 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 663 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ko_gsd
Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.
Download size :
4.66 MiB
Dataset size :
6.31 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 950 |
'test' | 989 |
'train' | 4,400 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ko_kaist
Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.
Download size :
20.84 MiB
Dataset size :
27.97 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 2,066 |
'test' | 2,287 |
'train' | 23,010 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ko_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.92 MiB
Dataset size :
2.12 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/kmr_mg
Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.
Download size :
747.04 KiB
Dataset size :
1.07 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 734 |
'train' | 20 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/la_ittb
Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.
Download size :
40.75 MiB
Dataset size :
55.54 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 2,101 |
'test' | 2,101 |
'train' | 22,775 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/la_udante
Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).
Download size :
4.87 MiB
Dataset size :
6.65 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 376 |
'test' | 419 |
'train' | 926 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/la_llct
Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.
Download size :
20.99 MiB
Dataset size :
27.77 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 850 |
'test' | 884 |
'train' | 7,289 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/la_perseus
Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1
Download size :
2.45 MiB
Dataset size :
3.53 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 939 |
'train' | 1,334 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/la_proiel
Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.
Download size :
17.58 MiB
Dataset size :
25.21 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,234 |
'test' | 1,260 |
'train' | 15,917 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/lv_lvtb
Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.
Download size :
30.93 MiB
Dataset size :
42.49 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,957 |
'test' | 2,325 |
'train' | 12,521 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/lij_glt
Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.
Download size :
426.33 KiB
Dataset size :
636.88 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 296 |
'train' | 20 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/lt_alksnis
Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).
Download size :
6.68 MiB
Dataset size :
9.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 617 |
'test' | 684 |
'train' | 2,341 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/lt_hse
Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.
Download size :
255.28 KiB
Dataset size :
1.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 153 |
'test' | 153 |
'train' | 153 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/olo_kkpp
Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.
Download size :
119.00 KiB
Dataset size :
165.75 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 106 |
'train' | 19 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/nds_lsdc
Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.
Download size :
209.01 KiB
Dataset size :
280.72 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 83 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/mt_mudt
Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.
Download size :
1.92 MiB
Dataset size :
2.67 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 433 |
'test' | 518 |
'train' | 1,123 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/gv_cadhan
Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.
Download size :
1.26 MiB
Dataset size :
1.79 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2,319 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/mr_ufal
Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.
Download size :
330.87 KiB
Dataset size :
496.00 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 46 |
'test' | 47 |
'train' | 373 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/gun_dooley
Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.
Download size :
560.08 KiB
Dataset size :
859.37 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,046 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/gun_thomas
Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.
Download size :
90.88 KiB
Dataset size :
120.86 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 98 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/mdf_jr
Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.
Download size :
343.96 KiB
Dataset size :
451.57 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 342 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/myu_tudet
Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.
Download size :
67.85 KiB
Dataset size :
83.48 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 158 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/pcm_nsc
Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).
Download size :
16.99 MiB
Dataset size :
21.58 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 991 |
'test' | 972 |
'train' | 7,278 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/nyq_aha
Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.
Download size :
6.24 KiB
Dataset size :
7.72 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 10 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sme_giella
Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.
Download size :
1.78 MiB
Dataset size :
2.72 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 865 |
'train' | 2,257 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/no_bokmaal
Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
18.29 MiB
Dataset size :
27.60 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 2,409 |
'test' | 1,939 |
'train' | 15,696 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/no_nynorsk
Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
17.68 MiB
Dataset size :
26.46 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,890 |
'test' | 1,511 |
'train' | 14,174 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/no_nynorsklia
Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.
Download size :
3.19 MiB
Dataset size :
4.78 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 881 |
'test' | 957 |
'train' | 3,412 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/cu_proiel
Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.
Download size :
5.92 MiB
Dataset size :
8.33 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,073 |
'test' | 1,141 |
'train' | 4,124 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/fro_srcmf
Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).
Download size :
13.51 MiB
Dataset size :
18.54 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,887 |
'test' | 1,989 |
'train' | 14,153 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/orv_birchbark
Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.
Download size :
4.04 MiB
Dataset size :
4.72 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,054 |
'test' | 1,006 |
'train' | 1,045 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/orv_rnc
Config description :
UD_Old_Russian-RNC
is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.Download size :
2.95 MiB
Dataset size :
4.02 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 648 |
'train' | 422 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/orv_torot
Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.
Download size :
14.49 MiB
Dataset size :
20.13 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,852 |
'test' | 1,756 |
'train' | 13,336 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/otk_tonqq
Config description :
UD_Old_Turkish-Tonqq
is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.Download size :
10.44 KiB
Dataset size :
14.01 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 20 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/fa_perdt
Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).
Download size :
32.05 MiB
Dataset size :
43.48 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,456 |
'test' | 1,455 |
'train' | 26,196 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/fa_seraji
Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.
Download size :
9.43 MiB
Dataset size :
12.50 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 599 |
'test' | 600 |
'train' | 4,798 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/pl_lfg
Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.
Download size :
14.18 MiB
Dataset size :
18.96 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,745 |
'test' | 1,727 |
'train' | 13,774 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/pl_pdb
Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).
Download size :
34.66 MiB
Dataset size :
47.62 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 2,215 |
'test' | 2,215 |
'train' | 17,722 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/pl_pud
Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re
Download size :
1.91 MiB
Dataset size :
2.52 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/pt_bosque
Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.
Download size :
14.29 MiB
Dataset size :
20.41 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,172 |
'test' | 1,167 |
'train' | 7,018 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/pt_gsd
Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).
Download size :
14.57 MiB
Dataset size :
20.34 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,204 |
'test' | 1,200 |
'train' | 9,615 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/pt_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.48 MiB
Dataset size :
1.95 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ro_art
Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.
Download size :
44.38 KiB
Dataset size :
65.95 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 50 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ro_nonstandard
Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0
Download size :
48.00 MiB
Dataset size :
66.84 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,052 |
'test' | 1,052 |
'train' | 24,121 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ro_rrt
Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.
Download size :
16.38 MiB
Dataset size :
22.96 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 752 |
'test' | 729 |
'train' | 8,043 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ro_simonero
Config description : SiMoNERo is a medical corpus of contemporary Romanian.
Download size :
11.36 MiB
Dataset size :
15.68 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 443 |
'test' | 491 |
'train' | 3,747 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ru_gsd
Config description : Russian Universal Dependencies Treebank annotated and converted by Google.
Download size :
8.42 MiB
Dataset size :
11.51 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 579 |
'test' | 601 |
'train' | 3,850 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ru_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.78 MiB
Dataset size :
2.26 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ru_syntagrus
Config description : Russian data from the SynTagRus corpus.
Download size :
97.99 MiB
Dataset size :
139.66 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 6,584 |
'test' | 6,491 |
'train' | 48,814 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ru_taiga
Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.
Download size :
18.12 MiB
Dataset size :
24.32 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 946 |
'test' | 881 |
'train' | 16,045 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sa_ufal
Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.
Download size :
414.72 KiB
Dataset size :
407.83 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 230 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sa_vedic
Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.
Download size :
1.95 MiB
Dataset size :
3.14 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,473 |
'train' | 2,524 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/gd_arcosg
Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).
Download size :
5.07 MiB
Dataset size :
7.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 655 |
'test' | 545 |
'train' | 3,539 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sr_set
Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.
Download size :
7.07 MiB
Dataset size :
10.04 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 536 |
'test' | 520 |
'train' | 3,328 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sms_giellagas
Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.
Download size :
216.27 KiB
Dataset size :
299.21 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 218 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sk_snk
Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.
Download size :
9.55 MiB
Dataset size :
13.87 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,060 |
'test' | 1,061 |
'train' | 8,483 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sl_ssj
Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.
Download size :
19.82 MiB
Dataset size :
28.72 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,250 |
'test' | 1,282 |
'train' | 10,903 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sl_sst
Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.
Download size :
2.53 MiB
Dataset size :
3.88 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,110 |
'train' | 2,078 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/soj_aha
Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.
Download size :
4.47 KiB
Dataset size :
5.58 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 8 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ajp_madar
Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.
Download size :
42.16 KiB
Dataset size :
65.64 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 100 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/es_ancora
Config description : Spanish data from the AnCora corpus.
Download size :
50.23 MiB
Dataset size :
66.53 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,654 |
'test' | 1,721 |
'train' | 14,287 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/es_gsd
Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).
Download size :
24.86 MiB
Dataset size :
36.42 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1400 |
'test' | 426 |
'train' | 14,187 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/es_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies .
Download size :
1.60 MiB
Dataset size :
2.11 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/swl_sslc
Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.
Download size :
79.78 KiB
Dataset size :
122.04 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 82 |
'test' | 34 |
'train' | 87 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sv_lines
Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.
Download size :
6.91 MiB
Dataset size :
9.18 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,032 |
'test' | 1,035 |
'train' | 3,176 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sv_pud
Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.
Download size :
1.64 MiB
Dataset size :
2.13 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sv_talbanken
Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.
Download size :
8.08 MiB
Dataset size :
11.40 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 504 |
'test' | 1,219 |
'train' | 4,303 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/gsw_uzh
Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.
Download size :
58.28 KiB
Dataset size :
86.61 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 100 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tl_trg
Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.
Download size :
59.91 KiB
Dataset size :
84.14 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 128 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tl_ugnayan
Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.
Download size :
53.91 KiB
Dataset size :
76.16 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 94 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ta_mwtt
Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.
Download size :
394.18 KiB
Dataset size :
499.94 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 534 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ta_ttb
Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.
Download size :
1.68 MiB
Dataset size :
2.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 80 |
'test' | 120 |
'train' | 400 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/te_mtg
Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.
Download size :
628.67 KiB
Dataset size :
866.20 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 131 |
'test' | 146 |
'train' | 1,051 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/th_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.53 MiB
Dataset size :
1.85 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tpn_tudet
Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.
Download size :
293.55 KiB
Dataset size :
371.48 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 546 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/qtd_sagt
Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.
Download size :
2.78 MiB
Dataset size :
4.28 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 801 |
'test' | 805 |
'train' | 578 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_atis
Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.
Download size :
3.26 MiB
Dataset size :
5.09 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 572 |
'test' | 586 |
'train' | 4,274 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_tourism
Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.
Download size :
6.48 MiB
Dataset size :
11.24 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 2,166 |
'test' | 2,191 |
'train' | 15,476 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_kenet
Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.
Download size :
12.16 MiB
Dataset size :
19.00 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 1,646 |
'test' | 1,643 |
'train' | 15,398 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_penn
Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)
Download size :
12.29 MiB
Dataset size :
18.82 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 622 |
'test' | 924 |
'train' | 14,850 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_framenet
Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.
Download size :
1.43 MiB
Dataset size :
2.28 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 205 |
'test' | 205 |
'train' | 2,288 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_boun
Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.
Download size :
9.07 MiB
Dataset size :
13.24 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 979 |
'test' | 979 |
'train' | 7,803 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_gb
Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.
Download size :
1.41 MiB
Dataset size :
2.02 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2,880 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_imst
Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).
Download size :
4.51 MiB
Dataset size :
6.70 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 988 |
'test' | 983 |
'train' | 3,664 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/tr_pud
Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
Download size :
1.29 MiB
Dataset size :
1.65 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1,000 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/uk_iu
Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]
Download size :
16.54 MiB
Dataset size :
21.99 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 672 |
'test' | 892 |
'train' | 5,496 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/hsb_ufal
Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.
Download size :
762.63 KiB
Dataset size :
1.11 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 623 |
'train' | 23 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ur_udtb
Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.
Download size :
15.16 MiB
Dataset size :
21.57 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 552 |
'test' | 535 |
'train' | 4,043 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ug_udt
Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.
Download size :
3.30 MiB
Dataset size :
4.59 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 900 |
'test' | 900 |
'train' | 1,656 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/vi_vtb
Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).
Download size :
1.96 MiB
Dataset size :
2.81 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 800 |
'test' | 800 |
'train' | 1400 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/wbp_ufal
Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.
Download size :
37.58 KiB
Dataset size :
47.36 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 55 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/cy_ccg
Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.
Download size :
2.28 MiB
Dataset size :
3.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 953 |
'train' | 976 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/hy_armtdp
Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.
Download size :
6.56 MiB
Dataset size :
8.50 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 249 |
'test' | 277 |
'train' | 1,974 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/wo_wtb
Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.
Download size :
2.65 MiB
Dataset size :
3.78 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev' | 449 |
'test' | 470 |
'train' | 1،188 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sjo_xdt
Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.
Download size :
1.50 MiB
Dataset size :
1.74 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 810 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/sah_yktdt
Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis
Download size :
51.76 KiB
Dataset size :
61.70 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 96 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/yo_ytb
Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.
Download size :
554.64 KiB
Dataset size :
767.54 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 318 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.
universal_dependencies/ess_sli
Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).
Download size :
302.87 KiB
Dataset size :
410.25 KiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 309 |
- أمثلة ( tfds.as_dataframe ): تظهر فقط لأول 100 تكوين.