dependencias_universales

  • Descripción :

Dependencias universales (UD) es un marco para la anotación coherente de la gramática (partes del discurso, características morfológicas y dependencias sintácticas) en diferentes idiomas humanos. UD es un esfuerzo comunitario abierto con más de 300 colaboradores que producen más de 200 bancos de árboles en más de 100 idiomas. Si es nuevo en UD, debe comenzar leyendo la primera parte de la breve introducción y luego navegar por las pautas de anotación.

FeaturesDict({
    'deprel': Sequence(Text(shape=(), dtype=string)),
    'deps': Sequence(Text(shape=(), dtype=string)),
    'feats': Sequence(Text(shape=(), dtype=string)),
    'head': Sequence(Text(shape=(), dtype=string)),
    'idx': Text(shape=(), dtype=string),
    'lemmas': Sequence(Text(shape=(), dtype=string)),
    'misc': Sequence(Text(shape=(), dtype=string)),
    'text': Text(shape=(), dtype=string),
    'tokens': Sequence(Text(shape=(), dtype=string)),
    'upos': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=18)),
    'xpos': Sequence(Text(shape=(), dtype=string)),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
deprelar Secuencia (Texto) (Ninguna,) cuerda
deps Secuencia (Texto) (Ninguna,) cuerda
hazañas Secuencia (Texto) (Ninguna,) cuerda
cabeza Secuencia (Texto) (Ninguna,) cuerda
idx Texto cuerda
lemas Secuencia (Texto) (Ninguna,) cuerda
varios Secuencia (Texto) (Ninguna,) cuerda
texto Texto cuerda
fichas Secuencia (Texto) (Ninguna,) cuerda
upos Secuencia (Etiqueta de clase) (Ninguna,) int64
pos x Secuencia (Texto) (Ninguna,) cuerda
@misc{11234/1-4758,
 title = {Universal Dependencies 2.10},
 author = {Zeman, Daniel and Nivre, Joakim and Abrams, Mitchell and Ackermann,  Elia and Aepli, No{"e}mi and Aghaei, Hamid and Agi{'c}, {v Z}eljko and  Ahmadi, Amir and Ahrenberg, Lars and Ajede, Chika Kennedy and  Aleksandravi{v c}i{=u}te, Gabriele and Alfina, Ika and Algom, Avner  and Andersen, Erik and Antonsen, Lene and Aplonova, Katya and Aquino,  Angelina and Aragon, Carolina and Aranes, Glyd and Aranzabe, Maria Jesus and  Arican, Bilge Nas and Arnard{'o}ttir, {     H}{'o}runn and Arutie, Gashaw  and Arwidarasti, Jessica Naraiswari and Asahara, Masayuki and Aslan, Deniz  Baran and Asmazoglu, Cengiz and Ateyah, Luma and Atmaca, Furkan and  Attia, Mohammed and Atutxa, Aitziber and Augustinus, Liesbeth and Badmaeva,  Elena and Balasubramani, Keerthana and Ballesteros, Miguel and Banerjee,  Esha and Bank, Sebastian and Barbu Mititelu, Verginica and Barkarson,  Starkaður and Basile, Rodolfo and Basmov, Victoria and Batchelor, Colin and  Bauer, John and Bedir, Seyyit Talha and Bengoetxea, Kepa and Ben Moshe, Yifat  and Berk, G{"o}zde and Berzak, Yevgeni and Bhat, Irshad Ahmad and Bhat,  Riyaz Ahmad and Biagetti, Erica and Bick, Eckhard and Bielinskiene,  Agne and Bjarnad{'o}ttir, Krist{'i}n and Blokland, Rogier and  Bobicev, Victoria and Boizou, Lo{"i}c and Borges V{"o}lker, Emanuel  and B{"o}rstell, Carl and Bosco, Cristina and Bouma, Gosse and Bowman, Sam  and Boyd, Adriane and Braggaar, Anouck and Brokaite, Kristina and  Burchardt, Aljoscha and Candito, Marie and Caron, Bernard and Caron, Gauthier  and Cassidy, Lauren and Cavalcanti, Tatiana and Cebiroglu Eryigit,  G{"u}l{s}en and Cecchini, Flavio Massimiliano and Celano, Giuseppe G. A.  and {C}{'e}pl{"o}, Slavom{'i}r and Cesur, Neslihan and Cetin, Savas  and {C}etinoglu, {"O}zlem and Chalub, Fabricio and Chauhan, Shweta  and Chi, Ethan and Chika, Taishi and Cho, Yongseok and Choi, Jinho and Chun,  Jayeol and Chung, Juyeon and Cignarella, Alessandra T. and Cinkov{'a},  Silvie and Collomb, Aur{'e}lie and {C}{"o}ltekin, {C}a{g}ri and  Connor, Miriam and Corbetta, Daniela and Courtin, Marine and Cristescu,  Mihaela and Daniel, Philemon and Davidson, Elizabeth and Dehouck, Mathieu  and de Laurentiis, Martina and de Marneffe, Marie-Catherine and de Paiva,  Valeria and Derin, Mehmet Oguz and de Souza, Elvis and Diaz de Ilarraza,  Arantza and Dickerson, Carly and Dinakaramani, Arawinda and Di Nuovo, Elisa  and Dione, Bamba and Dirix, Peter and Dobrovoljc, Kaja and Dozat, Timothy and  Droganova, Kira and Dwivedi, Puneet and Eckhoff, Hanne and Eiche, Sandra and  Eli, Marhaba and Elkahky, Ali and Ephrem, Binyam and Erina, Olga and Erjavec,  Toma{v z} and Etienne, Aline and Evelyn, Wograine and Facundes, Sidney and  Farkas, Rich{'a}rd and Favero, Federica and Ferdaousi, Jannatul and  Fernanda, Mar{'i}lia and Fernandez Alcalde, Hector and Foster, Jennifer  and Freitas, Cl{'a}udia and Fujita, Kazunori and Gajdo{v s}ov{'a},  Katar{'i}na and Galbraith, Daniel and Gamba, Federica and Garcia, Marcos  and G{"a}rdenfors, Moa and Garza, Sebastian and Gerardi, Fabr{'i}cio  Ferraz and Gerdes, Kim and Ginter, Filip and Godoy, Gustavo and Goenaga,  Iakes and Gojenola, Koldo and G{"o}kirmak, Memduh and Goldberg, Yoav and  G{'o}mez Guinovart, Xavier and Gonz{'a}lez Saavedra, Berta and  Griciute, Bernadeta and Grioni, Matias and Grobol, Lo{"i}c and  Gruzitis, Normunds and Guillaume, Bruno and Guillot-Barbance,  C{'e}line and G{"u}ng{"o}r, Tunga and Habash, Nizar and Hafsteinsson,  Hinrik and Hajic, Jan and Hajic jr., Jan and  H{"a}m{"a}l{"a}inen, Mika and Ha My, Linh and Han, Na-Rae and  Hanifmuti, Muhammad Yudistira and Harada, Takahiro and Hardwick, Sam and  Harris, Kim and Haug, Dag and Heinecke, Johannes and Hellwig, Oliver and  Hennig, Felix and Hladk{'a}, Barbora and Hlav{'a}{v c}ov{'a}, Jaroslava  and Hociung, Florinel and Hohle, Petter and Hwang, Jena and Ikeda, Takumi  and Ingason, Anton Karl and Ion, Radu and Irimia, Elena and Ishola,  {O}l{'a}j{'i}d{'e} and Ito, Kaoru and Jannat, Siratun and  Jel{'i}nek, Tom{'a}{v s} and Jha, Apoorva and Johannsen, Anders and  J{'o}nsd{'o}ttir, Hildur and Jorgensen, Fredrik and Juutinen, Markus  and K, Sarveswaran and Ka{c s}ikara, H{"u}ner and Kaasen, Andre and  Kabaeva, Nadezhda and Kahane, Sylvain and Kanayama, Hiroshi and Kanerva,  Jenna and Kara, Neslihan and Karah{'o}ǧa, Ritv{'a}n and Katz, Boris and  Kayadelen, Tolga and Kenney, Jessica and Kettnerov{'a}, V{'a}clava and  Kirchner, Jesse and Klementieva, Elena and Klyachko, Elena and K{"o}hn,  Arne and K{"o}ksal, Abdullatif and Kopacewicz, Kamil and Korkiakangas, Timo  and K{"o}se, Mehmet and Kotsyba, Natalia and Kovalevskaite, Jolanta and  Krek, Simon and Krishnamurthy, Parameswari and K{"u}bler, Sandra and  Kuyruk{c c}u, O{g}uzhan and Kuzgun, Asli and Kwak, Sookyoung and  Laippala, Veronika and Lam, Lucia and Lambertino, Lorenzo and Lando, Tatiana  and Larasati, Septina Dian and Lavrentiev, Alexei and Lee, John and Le  H{o}ng, Phương and Lenci, Alessandro and Lertpradit, Saran and Leung,  Herman and Levina, Maria and Li, Cheuk Ying and Li, Josie and Li, Keying and  Li, Yuan and Lim, {KyungTae} and Lima Padovani, Bruna and Lind{'e}n, Krister  and Ljube{s}i{'c}, Nikola and Loginova, Olga and Lusito, Stefano and  Luthfi, Andry and Luukko, Mikko and Lyashevskaya, Olga and Lynn, Teresa and  Macketanz, Vivien and Mahamdi, Menel and Maillard, Jean and Makazhanov, Aibek  and Mandl, Michael and Manning, Christopher and Manurung, Ruli and  Mar{s}an, B{"u}{s}ra and M{a}r{a}nduc, C{a}t{a}lina and  Mare{c}ek, David and Marheinecke, Katrin and Markantonatou, Stella and  Mart{'i}nez Alonso, H{'e}ctor and Mart{'i}n Rodr{'i}guez, Lorena  and Martins, Andr{'e} and Ma{s}ek, Jan and Matsuda, Hiroshi and  Matsumoto, Yuji and Mazzei, Alessandro and {McDonald}, Ryan and {McGuinness},  Sarah and Mendon{c}a, Gustavo and Merzhevich, Tatiana and Miekka, Niko and  Mischenkova, Karina and Misirpashayeva, Margarita and Missil{"a}, Anna and  Mititelu, C{a}t{a}lin and Mitrofan, Maria and Miyao, Yusuke and Mojiri  Foroushani, {AmirHossein} and Moln{'a}r, Judit and Moloodi, Amirsaeid and  Montemagni, Simonetta and More, Amir and Moreno Romero, Laura and Moretti,  Giovanni and Mori, Keiko Sophie and Mori, Shinsuke and Morioka, Tomohiko and  Moro, Shigeki and Mortensen, Bjartur and Moskalevskyi, Bohdan and Muischnek,  Kadri and Munro, Robert and Murawaki, Yugo and M{"u}{"u}risep, Kaili and  Nainwani, Pinkey and Nakhl{'e}, Mariam and Navarro Horniacek, Juan  Ignacio and Nedoluzhko, Anna and Ne{v s}pore-Berzkalne, Gunta and  Nevaci, Manuela and Nguy{e}n Th{i}, Lương and Nguy{e}n  Th{i} Minh, Huy{e}n and Nikaido, Yoshihiro and Nikolaev, Vitaly  and Nitisaroj, Rattima and Nourian, Alireza and Nurmi, Hanna and Ojala,  Stina and Ojha, Atul Kr. and Ol{'u}{'o}kun, Ad{e}day{o}̀ and Omura,  Mai and Onwuegbuzia, Emeka and Ordan, Noam and Osenova, Petya and  {"O}stling, Robert and {O}vrelid, Lilja and {"O}zate{s},  {S}aziye Bet{"u}l and {"O}z{c}elik, Merve and {"O}zg{"u}r,  Arzucan and {"O}zt{"u}rk Ba{s}aran, Balkiz and Paccosi, Teresa  and Palmero Aprosio, Alessio and Park, Hyunji Hayley and Partanen, Niko  and Pascual, Elena and Passarotti, Marco and Patejuk, Agnieszka and  Paulino-Passos, Guilherme and Pedonese, Giulia and Peljak-{L}api{n}ska,  Angelika and Peng, Siyao and Perez, Cenel-Augusto and Perkova, Natalia and  Perrier, Guy and Petrov, Slav and Petrova, Daria and Peverelli, Andrea and  Phelan, Jason and Piitulainen, Jussi and Pirinen, Tommi A and Pitler, Emily  and Plank, Barbara and Poibeau, Thierry and Ponomareva, Larisa and Popel,  Martin and Pretkalni{n}a, Lauma and Pr{'e}vost, Sophie and Prokopidis,  Prokopis and Przepi{o}rkowski, Adam and Puolakainen, Tiina and Pyysalo,  Sampo and Qi, Peng and R{"a}{"a}bis, Andriela and Rademaker, Alexandre and  Rahoman, Mizanur and Rama, Taraka and Ramasamy, Loganathan and Ramisch,  Carlos and Rashel, Fam and Rasooli, Mohammad Sadegh and Ravishankar, Vinit  and Real, Livy and Rebeja, Petru and Reddy, Siva and Regnault, Mathilde and  Rehm, Georg and Riabov, Ivan and Rie{ss}ler, Michael and Rimkut{e}, Erika  and Rinaldi, Larissa and Rituma, Laura and Rizqiyah, Putri and Rocha, Luisa  and R{"o}gnvaldsson, Eir{'i}kur and Romanenko, Mykhailo and Rosa, Rudolf  and Roșca, Valentin and Rovati, Davide and Rozonoyer, Ben and Rudina, Olga  and Rueter, Jack and R{'u}narsson, Kristj{'a}n and Sadde, Shoval and  Safari, Pegah and Sagot, Beno{i}t and Sahala, Aleksi and Saleh, Shadi  and Salomoni, Alessio and Samard{v z}i{'c}, Tanja and Samson, Stephanie and  Sanguinetti, Manuela and Saniyar, Ezgi and S{"a}rg, Dage and  Saulite, Baiba and Sawanakunanon, Yanin and Saxena, Shefali and  Scannell, Kevin and Scarlata, Salvatore and Schneider, Nathan and Schuster,  Sebastian and Schwartz, Lane and Seddah, Djam{'e} and Seeker, Wolfgang and  Seraji, Mojgan and Shahzadi, Syeda and Shen, Mo and Shimada, Atsuko and  Shirasu, Hiroyuki and Shishkina, Yana and Shohibussirri, Muh and Sichinava,  Dmitry and Siewert, Janine and Sigurðsson, Einar Freyr and Silveira, Aline  and Silveira, Natalia and Simi, Maria and Simionescu, Radu and Simk{'o},  Katalin and {S}imkov{'a}, M{'a}ria and Simov, Kiril and Skachedubova,  Maria and Smith, Aaron and Soares-Bastos, Isabela and Sourov, Shafi and  Spadine, Carolyn and Sprugnoli, Rachele and Stamou, Vivian and  Steingr{'i}msson, Stein{h}{'o}r and Stella, Antonio and Straka,  Milan and Strickland, Emmett and Strnadov{'a}, Jana and Suhr, Alane and  Sulestio, Yogi Lesmana and Sulubacak, Umut and Suzuki, Shingo and Swanson,  Daniel and Sz{'a}nt{'o}, Zsolt and Taguchi, Chihiro and Taji, Dima and  Takahashi, Yuta and Tamburini, Fabio and Tan, Mary Ann C. and Tanaka, Takaaki  and Tanaya, Dipta and Tavoni, Mirko and Tella, Samson and Tellier, Isabelle  and Testori, Marinella and Thomas, Guillaume and Tonelli, Sara and Torga,  Liisi and Toska, Marsida and Trosterud, Trond and Trukhina, Anna and  Tsarfaty, Reut and T{"u}rk, Utku and Tyers, Francis and Uematsu, Sumire  and Untilov, Roman and Ure{v s}ov{'a}, Zde{n}ka and Uria, Larraitz and  Uszkoreit, Hans and Utka, Andrius and Vagnoni, Elena and Vajjala, Sowmya and  van der Goot, Rob and Vanhove, Martine and van Niekerk, Daniel and van Noord,  Gertjan and Varga, Viktor and Vedenina, Uliana and Villemonte de la  Clergerie, Eric and Vincze, Veronika and Vlasova, Natalia and Wakasa,  Aya and Wallenberg, Joel C. and Wallin, Lars and Walsh, Abigail and Wang,  Jing Xian and Washington, Jonathan North and Wendt, Maximilan and Widmer,  Paul and Wigderson, Shira and Wijono, Sri Hartati and Williams, Seyi and  Wir{'e}n, Mats and Wittern, Christian and Woldemariam, Tsegay and Wong,  Tak-sum and Wr{'o}blewska, Alina and Yako, Mary and Yamashita, Kayo and  Yamazaki, Naoki and Yan, Chunxiao and Yasuoka, Koichi and Yavrumyan, Marat M.  and Yenice, Arife Bet{"u}l and Yildiz, Olcay Taner and Yu, Zhuoran and  Yuliawati, Arlisa and {Z}abokrtsk{'y}, Zden{v e}k and Zahra, Shorouq and  Zeldes, Amir and Zhou, He and Zhu, Hanzhi and Zhuravleva, Anna and Ziane,  Rayan
 },
 url = {http://hdl.handle.net/11234/1-4758},
 note = { {LINDAT}/{CLARIAH}-{CZ} digital library at the Institute of Formal  and Applied Linguistics ({ {'U}FAL}), Faculty of Mathematics and Physics,  Charles University},
 copyright = {Licence Universal Dependencies v2.10},
 year = {2022}
}

universal_dependencies/af_afribooms (configuración predeterminada)

  • Descripción de la configuración : UD Afrikaans-AfriBooms es una conversión del AfriBooms Dependency Treebank, originalmente anotado con un conjunto de PoS simplificado y relaciones de dependencia de acuerdo con un subconjunto del conjunto de etiquetas de Stanford. El corpus está formado por documentos públicos del gobierno. El conjunto de datos fue propuesto en 'AfriBooms: An Online Treebank for Afrikaans' por Augustinus et al. (2016); https://www.aclweb.org/antología/L16-1107.pdf

  • Tamaño de la descarga : 2.95 MiB

  • Tamaño del conjunto de datos : 4.02 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 194
'test' 425
'train' 1,315

dependencias_universales/akk_pisandub

  • Descripción de la configuración : un pequeño conjunto de oraciones de las inscripciones reales de Babilonia.

  • Tamaño de la descarga : 99.41 KiB

  • Tamaño del conjunto de datos : 126.32 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 101

dependencias_universales/akk_riao

  • Descripción de la configuración : UD_Akkadian-RIAO es un pequeño árbol que consta de 22 277 palabras y 1845 oraciones. Esto representa un subconjunto intacto de un total de 2211 oraciones de las primeras inscripciones reales neoasirias de los siglos X y IX a. Estas inscripciones reales se extrajeron de Oracc (Open Richly Annotated Cuneiform Corpus; http://oracc.museum.upenn.edu/riao/ ), donde todas las inscripciones reales neoasirias están lematizadas palabra por palabra. El idioma del corpus es el babilónico estándar, con asirios ocasionales, mientras que "acadio" es el término genérico tanto para el asirio como para el babilónico. El treebank se anotó manualmente siguiendo las pautas de anotación de UD.

  • Tamaño de la descarga : 1.87 MiB

  • Tamaño del conjunto de datos : 2.79 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,874

dependencias_universales/aqz_tudet

  • Descripción de la configuración : UD_Akuntsu-TuDeT es una colección de textos anotados en Akuntsú. Junto con UD_Tupinamba-TuDeT y UD_Munduruku-TuDeT, UD_Akuntsu-TuDeT forma parte del proyecto TuLaR. Las sentencias están siendo anotadas por Carolina Aragón y Fabrício Ferraz Gerardi.

  • Tamaño de la descarga : 67.25 KiB

  • Tamaño del conjunto de datos : 97.39 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 243

dependencias_universales/sq_tsa

  • Descripción de la configuración : el UD Treebank para Standard Albanian (TSA) es un pequeño treebank que consta de 60 oraciones correspondientes a 922 tokens. Los datos se recopilaron de diferentes entradas de Wikipedia. Este treebank se creó principalmente de forma manual siguiendo las pautas de Dependencias universales. La lematización se realizó utilizando el lematizador https://bitbucket.org/timarkh/uniparser-albanian-grammar/src/master/ desarrollado por el equipo de Albanian National Corpus (Maria Morozova, Alexander Rusakov, Timofey Arkhangelskiy). El etiquetado y el análisis morfológico se semiautomatizaron a través de scripts de python y se corrigieron manualmente, mientras que las relaciones de dependencia se asignaron completamente de forma manual. Alentamos cualquier iniciativa para aumentar el tamaño y/o mejorar la calidad general del Treebank.

  • Tamaño de descarga : 62.00 KiB

  • Tamaño del conjunto de datos : 93.65 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 60

dependencias_universales/am_att

  • Descripción de la configuración : UD_Amharic-ATT es un Treebanks anotado manualmente. Está anotado para la etiqueta POS, información morfológica y relaciones de dependencia. Dado que el amárico es un lenguaje morfológicamente rico, pro-drop y que tiene una característica de duplicación de clíticos, los clíticos se han segmentado manualmente.

  • Tamaño de la descarga : 995.32 KiB

  • Tamaño del conjunto de datos : 1.33 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,074

dependencias_universales/grc_perseus

  • Descripción de la configuración : este Treebank de dependencias universales del griego antiguo consiste en una conversión automática de una selección de pasajes del Treebank de dependencias del griego antiguo y el latín 2.1

  • Tamaño de descarga : 18.02 MiB

  • Tamaño del conjunto de datos : 24.52 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,137
'test' 1,306
'train' 11,476

dependencias_universales/grc_perfil

  • Descripción de la configuración : el banco de árboles PROIEL del griego antiguo se basa en los datos del banco de árboles PROIEL del griego antiguo, que se mantiene en el Departamento de Filosofía, Clásicas, Historia de las Artes e Ideas de la Universidad de Oslo. La conversión se basa en la versión 20180408 del treebank PROIEL disponible en https://github.com/proiel/proiel-treebank/releases Los anotadores originales se reconocen en los archivos disponibles allí. El código de conversión está disponible en Rubygem proiel-cli, https://github.com/proiel/proiel-cli

  • Tamaño de la descarga : 22.62 MiB

  • Tamaño del conjunto de datos : 30.92 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,019
'test' 1,047
'train' 15,014

dependencias_universales/apu_ufpa

  • Descripción de la configuración : la versión inicial contiene 70 oraciones anotadas. Este es el primer banco de árboles en un idioma de la familia Arawak. Las glosas interlineales originales se incluyen en el banco de árboles y su conversión en una anotación UD completa es un proceso continuo. Los valores de sent_id (por ejemplo: FernandaM2017:Texto-6-19) son representativos del recopilador, el año de publicación, el identificador del texto y el número de oración en orden desde el texto original.

  • Tamaño de la descarga : 95.51 KiB

  • Tamaño del conjunto de datos : 98.49 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 115

dependencias_universales/hbo_ptnk

  • Descripción de la configuración : UD Ancient Hebrew PTNK contiene partes de la Biblia Hebraic Stuttgartensia con anotaciones morfológicas de ETCBC.

  • Tamaño de la descarga : 3.11 MiB

  • Tamaño del conjunto de datos : 4.28 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 439
'test' 410
'train' 730

dependencias_universales/ar_nyuad

  • Descripción de la configuración : el treebank consta de 19 738 oraciones (738 889 tokens) y su dominio es principalmente de noticias. La anotación tiene licencia según los términos de CC BY-SA 4.0, y el PATB original se puede obtener en el sitio web oficial de LDC.

  • Tamaño de la descarga : 55.87 MiB

  • Tamaño del conjunto de datos : 78.33 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,986
'test' 1,963
'train' 15,789

dependencias_universales/ar_padt

  • Descripción de la configuración : el treebank árabe-PADT UD se basa en el Treebank de dependencia árabe de Praga (PADT), creado en la Universidad Charles de Praga.

  • Tamaño de la descarga : 48.84 MiB

  • Tamaño del conjunto de datos : 64.42 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 909
'test' 680
'train' 6,075

dependencias_universales/ar_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de la descarga : 1.98 MiB

  • Tamaño del conjunto de datos : 2.34 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/aii_as

  • Descripción de la configuración : Uppsala Assyrian Treebank es un pequeño treebank para Modern Standard Assyrian. El corpus se recopila y anota manualmente. Los datos se recopilaron aleatoriamente de diferentes libros de texto y de una breve traducción de El mercader de Venecia.

  • Tamaño de la descarga : 31.99 KiB

  • Tamaño del conjunto de datos : 48.85 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 57

dependencias_universales/bm_crb

  • Descripción de la configuración : el treebank de UD Bambara es una sección del Corpus Référence du Bambara anotado de forma nativa con dependencias universales.

  • Tamaño de la descarga : 873.37 KiB

  • Tamaño del conjunto de datos : 1.25 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,026

dependencias_universales/eu_bdt

  • Descripción de la configuración : El treebank de la UD vasca se basa en una conversión automática de parte del Treebank de la dependencia vasca (BDT), creado en la Universidad del País Vasco por el grupo de investigación IXA NLP. El treebank consta de 8.993 oraciones (121.443 tokens) y cubre principalmente textos literarios y periodísticos.

  • Tamaño de la descarga : 7.83 MiB

  • Tamaño del conjunto de datos : 11.74 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,798
'test' 1,799
'train' 5,396

dependencias_universales/bej_nsc

  • Descripción de la configuración : un corpus de dependencias universales para Beja, la rama cusita del norte del filo afroasiático que se habla principalmente en Sudán, Egipto y Eritrea.

  • Tamaño de la descarga : 136.52 KiB

  • Tamaño del conjunto de datos : 168.15 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 56

dependencias_universales/be_hse

  • Descripción de la configuración : el treebank UD bielorruso se basa en una muestra de los textos de noticias incluidos en el subcorpus paralelo bielorruso-ruso del Russian National Corpus, búsqueda en línea disponible en: http://ruscorpora.ru/search-para-be.html

  • Tamaño de la descarga : 30.04 MiB

  • Tamaño del conjunto de datos : 39.88 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,301
'test' 1,077
'train' 22,853

dependencias_universales/bn_bru

  • Descripción de la configuración : el banco de árboles bengalí BRU ha sido creado en la Universidad Begum Rokeya, Rangpur, por los miembros del Laboratorio de Semántica.

  • Tamaño de la descarga : 38.41 KiB

  • Tamaño del conjunto de datos : 51.42 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 56

dependencias_universales/bho_bhtb

  • Descripción de la configuración : Bhojpuri UD Treebank (BHTB) v2.6 consta de 6664 tokens (357 oraciones). Este Treebank es parte del proyecto Treebank de Universal Dependency. Inicialmente, fue iniciado por mí (Atul) en la Universidad Jawaharlal Nehru, Nueva Delhi, durante el trabajo de investigación doctoral. Los datos de BHTB contienen anotaciones sintácticas de acuerdo con el esquema de dependencia-constituyente, así como etiquetas morfológicas y lemas. En estos datos, XPOS se anota de acuerdo con el conjunto de etiquetas Part Of Speech (POS) de la Oficina de Estándares Indios (BIS).

  • Tamaño de la descarga : 599.76 KiB

  • Tamaño del conjunto de datos : 817.23 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 357

dependencias_universales/br_keb

  • Descripción de la configuración : UD Breton-KEB es un treebank de bretón que se ha anotado manualmente de acuerdo con las pautas de dependencias universales. Las pautas de tokenización y la anotación morfológica provienen de un analizador morfológico de estado finito de bretón lanzado como parte del proyecto Apertium.

  • Tamaño de la descarga : 663.63 KiB

  • Tamaño del conjunto de datos : 863.36 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 888

dependencias_universales/bg_btb

  • Descripción de la configuración : UD_Bulgarian-BTB se basa en BulTreeBank basado en HPSG, creado en el Instituto de Tecnologías de la Información y la Comunicación de la Academia de Ciencias de Bulgaria. El original consta de 215.000 fichas (más de 15.000 frases).

  • Tamaño de la descarga : 14.22 MiB

  • Tamaño del conjunto de datos : 20.01 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,115
'test' 1,116
'train' 8,907

dependencias_universales/bxr_bdt

  • Descripción de la configuración : el treebank de UD Buryat se anotó manualmente de forma nativa en UD y contiene oraciones de libros de gramática, junto con noticias y algo de ficción.

  • Tamaño de la descarga : 710.23 KiB

  • Tamaño del conjunto de datos : 1018.12 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 908
'train' 19

dependencias_universales/yue_hk

  • Descripción de la configuración : Treebank cantonés (en caracteres del chino tradicional) de subtítulos de películas y procedimientos legislativos de Hong Kong, paralelo al treebank chino-HK.

  • Tamaño de la descarga : 693.38 KiB

  • Tamaño del conjunto de datos : 1.04 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,004

dependencias_universales/ca_ancora

  • Descripción de la configuración : datos catalanes del corpus AnCora.

  • Tamaño de la descarga : 48.14 MiB

  • Tamaño del conjunto de datos : 64.03 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,709
'test' 1,846
'train' 13,123

dependencias_universales/ceb_gja

  • Descripción de la configuración : UD_Cebuano_GJA es una colección de oraciones de muestra en cebuano anotadas tomadas al azar de tres fuentes diferentes: muestras aportadas por la comunidad del sitio web Tatoeba, un libro de gramática en cebuano de Bunye & Yap (1971) y la gramática de referencia de Tanangkinsing en cebuano (2011). Este proyecto está actualmente en proceso.

  • Tamaño de la descarga : 99.30 KiB

  • Tamaño del conjunto de datos : 136.74 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 188

dependencias_universales/zh_cfl

  • Descripción de la configuración : El treebank chino-CFL UD está anotado manualmente por Keying Li con revisiones manuales menores de Herman Leung y John Lee en la Universidad de la Ciudad de Hong Kong, basadas en ensayos escritos por estudiantes de chino mandarín como idioma extranjero. Los datos están en chino simplificado.

  • Tamaño de la descarga : 375.71 KiB

  • Tamaño del conjunto de datos : 558.45 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 451

dependencias_universales/zh_gsd

  • Descripción de la configuración : Treebank de dependencias universales en chino tradicional anotado y convertido por Google.

  • Tamaño de la descarga : 6.48 MiB

  • Tamaño del conjunto de datos : 8.88 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 500
'test' 500
'train' 3,997

dependencias_universales/zh_gsdsimp

  • Descripción de la configuración : conjunto de datos de dependencias universales en chino simplificado convertido del conjunto de datos GSD (tradicional) con correcciones manuales.

  • Tamaño de la descarga : 6.48 MiB

  • Tamaño del conjunto de datos : 8.88 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 500
'test' 500
'train' 3,997

dependencias_universales/zh_hk

  • Descripción de la configuración : Treebank chino tradicional de subtítulos de películas y de procedimientos legislativos de Hong Kong, paralelo al treebank cantonés-HK.

  • Tamaño de la descarga : 482.85 KiB

  • Tamaño del conjunto de datos : 779.66 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,004

dependencias_universales/zh_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de la descarga : 1.53 MiB

  • Tamaño del conjunto de datos : 1.95 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/ckt_hse

  • Descripción de la configuración : estos datos son una anotación manual del corpus del corpus anotado multimedia del proyecto Chuklang, un corpus dialectal de la variante Amguema de Chukchi.

  • Tamaño de la descarga : 793.16 KiB

  • Tamaño del conjunto de datos : 828.50 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,004

dependencias_universales/lzh_kyoto

  • Descripción de la configuración : Treebank de dependencias universales del chino clásico anotado y convertido por el Instituto de Investigación en Humanidades de la Universidad de Kyoto.

  • Tamaño de la descarga : 26.86 MiB

  • Tamaño del conjunto de datos : 39.40 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 5,687
'test' 4,932
'train' 48,569

dependencias_universales/cop_scriptorium

  • Descripción de la configuración : UD Coptic contiene textos coptos sahídicos anotados manualmente, incluidos textos bíblicos, sermones, cartas y hagiografía.

  • Tamaño de la descarga : 4.73 MiB

  • Tamaño del conjunto de datos : 6.12 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 381
'test' 403
'train' 1,227

dependencias_universales/conjunto_hr

  • Descripción de la configuración : el treebank UD croata se basa en la extensión del corpus SETimes-HR, el corpus hr500k.

  • Tamaño de la descarga : 14.41 MiB

  • Tamaño del conjunto de datos : 20.43 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 960
'test' 1,136
'train' 6,914

dependencias_universales/cs_cac

  • Descripción de la configuración : el treebank UD_Czech-CAC se basa en el Czech Academic Corpus 2.0 (CAC; Český akademický korpus; ČAK), creado en la Universidad Charles de Praga.

  • Tamaño de la descarga : 53.72 MiB

  • Tamaño del conjunto de datos : 73.74 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 603
'test' 628
'train' 23,478

dependencias_universales/cs_cltt

  • Descripción de la configuración : el treebank UD_Czech-CLTT se basa en el Treebank de texto legal checo 1.0, creado en la Universidad Charles de Praga.

  • Tamaño de la descarga : 3.57 MiB

  • Tamaño del conjunto de datos : 4.73 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 129
'test' 136
'train' 860

dependencias_universales/cs_fictree

  • Descripción de la configuración : FicTree es un banco de árboles de ficción checa, convertido automáticamente al formato UD. El banco de árboles se construyó en la Universidad Charles de Praga.

  • Tamaño de la descarga : 16.65 MiB

  • Tamaño del conjunto de datos : 23.29 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,309
'test' 1,291
'train' 10,160

dependencias_universales/cs_pdt

  • Descripción de la configuración : El treebank Czech-PDT UD se basa en el Treebank de dependencia de Praga 3.0 (PDT), creado en la Universidad Charles de Praga.

  • Tamaño de la descarga : 164.29 MiB

  • Tamaño del conjunto de datos : 224.30 MiB

  • Almacenamiento automático en caché ( documentación ): Sí (desarrollo, prueba), solo cuando shuffle_files=False (tren)

  • Divisiones :

Separar Ejemplos
'dev' 9,270
'test' 10,148
'train' 68,495

dependencias_universales/cs_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de descarga : 2.14 MiB

  • Tamaño del conjunto de datos : 2.76 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/da_ddt

  • Descripción de la configuración : el treebank UD danés es una conversión del Treebank de dependencia danés.

  • Tamaño de la descarga : 6.13 MiB

  • Tamaño del conjunto de datos : 9.15 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 564
'test' 565
'train' 4,383

dependencias_universales/nl_alpino

  • Descripción de la configuración : este corpus consta de muestras de varios treebanks anotados en la Universidad de Groningen utilizando las herramientas y pautas de anotación de Alpino.

  • Tamaño de la descarga : 15.98 MiB

  • Tamaño del conjunto de datos : 21.03 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 718
'test' 596
'train' 12,289

dependencias_universales/nl_lassysmall

  • Descripción de la configuración : este corpus contiene oraciones de la sección de Wikipedia de Lassy Small Treebank. La anotación de dependencia universal se generó automáticamente a partir de la anotación original en Lassy.

  • Tamaño de la descarga : 7.61 MiB

  • Tamaño del conjunto de datos : 9.86 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 676
'test' 876
'train' 5,789

dependencias_universales/en_esl

  • Descripción de la configuración : UD English-ESL/Treebank of Learner English (TLE) contiene etiquetas POS manuales y anotaciones de dependencia para 5124 oraciones de inglés como segundo idioma (ESL) extraídas del conjunto de datos del First Certificate in English (FCE) de Cambridge Learner Corpus.

  • Tamaño de descarga : 3.20 MiB

  • Tamaño del conjunto de datos : 4.72 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 500
'test' 500
'train' 4,124

dependencias_universales/en_ewt

  • Descripción de la configuración : un corpus de dependencias universales Gold Standard para inglés, construido sobre el material de origen del English Web Treebank LDC2012T13 ( https://catalog.ldc.upenn.edu/LDC2012T13 ).

  • Tamaño de la descarga : 16.37 MiB

  • Tamaño del conjunto de datos : 23.60 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 2,001
'test' 2,077
'train' 12,543

dependencias_universales/en_gum

  • Descripción de la configuración : anotaciones de sintaxis de dependencias universales del corpus GUM ( https://corpling.uis.georgetown.edu/gum/ ).

  • Tamaño de la descarga : 13.81 MiB

  • Tamaño del conjunto de datos : 18.21 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,117
'test' 1,096
'train' 6,917

dependencias_universales/en_gumreddit

  • Descripción de la configuración : anotaciones de sintaxis de dependencias universales de la parte de Reddit del corpus GUM ( https://corpling.uis.georgetown.edu/gum/ )

  • Tamaño de descarga : 1.47 MiB

  • Tamaño del conjunto de datos : 2.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 104
'test' 105
'train' 686

dependencias_universales/en_lines

  • Descripción de la configuración : UD English_LinES es la mitad en inglés de LinES Parallel Treebank con la anotación de dependencia original primero convertida automáticamente en Dependencias universales y luego revisada parcialmente. Su contenido cubre literatura, un manual en línea y datos de Europarl.

  • Tamaño de la descarga : 5.27 MiB

  • Tamaño del conjunto de datos : 7.54 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,032
'test' 1,035
'train' 3,176

dependencias_universales/en_atis

  • Descripción de la configuración : UD Atis Treebank es un treebank anotado manualmente que consta de las oraciones en el conjunto de datos Atis (Información de viaje de la aerolínea) que incluye las transcripciones del habla humana de las personas que solicitan información de vuelo en los sistemas de consulta automatizados.

  • Tamaño de la descarga : 3.06 MiB

  • Tamaño del conjunto de datos : 4.76 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 572
'test' 586
'train' 4,274

dependencias_universales/en_partut

  • Descripción de la configuración : UD_English-ParTUT es una conversión de un treebank paralelo multilingüe desarrollado en la Universidad de Turín y que consta de una variedad de géneros de texto, que incluyen charlas, textos legales y artículos de Wikipedia, entre otros.

  • Tamaño de la descarga : 2.59 MiB

  • Tamaño del conjunto de datos : 3.65 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 156
'test' 153
'train' 1,781

dependencias_universales/en_pronombres

  • Descripción de la configuración : UD English-Pronouns es un conjunto de datos creado para hacer que la identificación de pronombres sea más precisa y con una distribución más equilibrada entre géneros. El conjunto de datos se dirige inicialmente a los pronombres genitivos independientes, 'hers', (independent) 'his', (singular) 'theirs', 'mine' y (singular) 'yours'.

  • Tamaño de la descarga : 138.08 KiB

  • Tamaño del conjunto de datos : 186.09 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 285

dependencias_universales/en_pud

  • Descripción de la configuración : esta es la parte en inglés de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin formato a dependencias universales ( http://universaldependencies.org/conll17/ ).

  • Tamaño de la descarga : 1.28 MiB

  • Tamaño del conjunto de datos : 1.82 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/myv_jr

  • Descripción de configuración : UD Erzya es la anotación original (CoNLL-U) para textos en el idioma Erzya, originalmente consiste en una muestra de varios autores de ficción que escriben originales en Erzya.

  • Tamaño de la descarga : 1.88 MiB

  • Tamaño del conjunto de datos : 2.47 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,714

dependencias_universales/et_edt

  • Descripción de la configuración : UD Estonian es una versión convertida del Estonian Dependency Treebank (EDT), originalmente anotado en el esquema de anotación Constraint Grammar (CG), y que consta de géneros de ficción, textos periodísticos y textos científicos. El treebank contiene 30.972 árboles, 437.769 fichas.

  • Tamaño de la descarga : 31.09 MiB

  • Tamaño del conjunto de datos : 45.98 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 3,127
'test' 3,214
'train' 24,632

dependencias_universales/et_ewt

  • Descripción de la configuración : el treebank de UD EWT consta de diferentes géneros de nuevos medios. El banco de árboles contiene 4.493 árboles, 56.399 fichas.

  • Tamaño de la descarga : 5.35 MiB

  • Tamaño del conjunto de datos : 8.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 833
'test' 913
'train' 4,579

dependencias_universales/fo_farpahc

  • Descripción de la configuración : UD_Icelandic-FarPaHC es una conversión del corpus histórico analizado de las Islas Feroe (FarPaHC) al esquema de dependencias universales. La conversión se realizó utilizando UDConverter.

  • Tamaño de la descarga : 2.09 MiB

  • Tamaño del conjunto de datos : 2.84 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 300
'test' 301
'train' 1,020

dependencias_universales/fo_oft

  • Descripción de la configuración : este es un banco de árboles de las Islas Feroe basado en la Wikipedia de las Islas Feroe.

  • Tamaño de la descarga : 783.86 KiB

  • Tamaño del conjunto de datos : 1.07 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,208

dependencias_universales/fi_ftb

  • Descripción de la configuración : FinnTreeBank 1 consta de ejemplos gramaticales anotados manualmente de VISK. La versión UD de FinnTreeBank 1 se convirtió a partir de un modelo de anotación nativo con un script y luego se revisó manualmente.

  • Tamaño de la descarga : 12.52 MiB

  • Tamaño del conjunto de datos : 18.45 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,875
'test' 1,867
'train' 14,981

dependencias_universales/inundaciones

  • Descripción de la configuración : finlandés-OOD es un conjunto de prueba externo fuera del dominio para finlandés-TDT anotado de forma nativa en el esquema UD.

  • Tamaño de descarga : 1.40 MiB

  • Tamaño del conjunto de datos : 2.11 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 2,122

dependencias_universales/fi_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de descarga : 1.34 MiB

  • Tamaño del conjunto de datos : 1.80 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/fi_tdt

  • Descripción de la configuración : UD_Finnish-TDT se basa en Turku Dependency Treebank (TDT), un treebank de dependencia de amplia cobertura del finlandés general que cubre numerosos géneros. La conversión a UD fue seguida de extensas verificaciones y correcciones manuales, y el treebank se adhiere estrictamente a las pautas de UD.

  • Tamaño de la descarga : 15.84 MiB

  • Tamaño del conjunto de datos : 23.17 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,364
'test' 1,555
'train' 12,217

dependencias_universales/fr_fqb

  • Descripción de la configuración : El corpus UD_French-FQB es una conversión automática del French QuestionBank v1, un corpus hecho completamente de preguntas.

  • Tamaño de descarga : 1.47 MiB

  • Tamaño del conjunto de datos : 2.32 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 2,289

dependencias_universales/fr_ftb

  • Descripción de la configuración : la versión de dependencia universal del Treebank francés (Abeillé et al., 2003), en adelante UD_French-FTB, es un treebank de oraciones del periódico Le Monde, inicialmente anotadas manualmente con información morfológica y estructura de frase y luego convertidas a el esquema de anotación de dependencias universales.

  • Tamaño de la descarga : 29.49 MiB

  • Tamaño del conjunto de datos : 44.93 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,235
'test' 2,541
'train' 14,759

dependencias_universales/fr_gsd

  • Descripción de la configuración : el UD_French-GSD se convirtió en 2015 a partir de la versión principal de contenido del treebank de dependencia universal v2.0 ( https://github.com/ryanmcd/uni-dep-tb ). Se actualiza desde 2015 independientemente de la fuente anterior.

  • Tamaño de la descarga : 24.38 MiB

  • Tamaño del conjunto de datos : 35.77 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,476
'test' 416
'train' 14,449

dependencias_universales/fr_partut

  • Descripción de la configuración : UD_French-ParTUT es una conversión de un treebank paralelo multilingüe desarrollado en la Universidad de Turín y que consta de una variedad de géneros de texto, que incluyen charlas, textos legales y artículos de Wikipedia, entre otros.

  • Tamaño de la descarga : 1.74 MiB

  • Tamaño del conjunto de datos : 2.44 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 107
'test' 110
'train' 803

dependencias_universales/fr_rhapsodie

  • Descripción de la configuración : un corpus de dependencias universales para el francés hablado.

  • Tamaño de descarga : 3.00 MiB

  • Tamaño del conjunto de datos : 4.10 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,082
'test' 840
'train' 1,288

dependencias_universales/es_parisstories

  • Descripción de la configuración : Paris Stories es un corpus de francés oral recopilado y transcrito por estudiantes de Lingüística de la Sorbonne Nouvelle y corregido por estudiantes del Máster Plurital de Lingüística Computacional (Inalco, Paris Nanterre, Sorbonne Nouvelle) entre 2017 y 2021. Contiene monólogos y diálogos de oradores que viven en la región parisina.

  • Tamaño de la descarga : 1.97 MiB

  • Tamaño del conjunto de datos : 2.70 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 547
'train' 1,216

dependencias_universales/fr_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de la descarga : 1.71 MiB

  • Tamaño del conjunto de datos : 2.24 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/fr_sequoia

  • Descripción de la configuración : UD_French-Sequoia es una conversión automática del corpus de Sequoia Treebank El corpus de Sequoia francés.

  • Tamaño de la descarga : 4.21 MiB

  • Tamaño del conjunto de datos : 6.18 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 412
'test' 456
'train' 2,231

dependencias_universales/gl_ctg

  • Descripción de la configuración : El treebank de la UD de Galicia se basa en el análisis automático del Corpus Técnico de Galicia ( http://sli.uvigo.gal/CTG ) creado en la Universidad de Vigo por el grupo de investigación TALG NLP.

  • Tamaño de la descarga : 7.85 MiB

  • Tamaño del conjunto de datos : 10.81 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 860
'test' 861
'train' 2,272

dependencias_universales/gl_treegal

  • Descripción de la configuración : El Gallego-TreeGal es un treebank para gallego desarrollado en LyS Group (Universidad da Coruña).

  • Tamaño de descarga : 1.66 MiB

  • Tamaño del conjunto de datos : 2.35 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 400
'train' 600

dependencias_universales/de_gsd

  • Descripción de la configuración : el UD alemán se convierte a partir de la versión principal de contenido del treebank de dependencia universal v2.0 (heredado).

  • Tamaño de descarga : 20.69 MiB

  • Tamaño del conjunto de datos : 29.60 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 799
'test' 977
'train' 13,814

dependencias_universales/de_hdt

  • Descripción de la configuración : UD German-HDT es una conversión del Hamburg Dependency Treebank, creado en la Universidad de Hamburgo a través de la anotación manual junto con un estándar para anotar oraciones morfológica y sintácticamente, así como un analizador basado en restricciones.

  • Tamaño de la descarga : 242.97 MiB

  • Tamaño del conjunto de datos : 347.93 MiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev' 18,434
'test' 18,459
'train' 153,035

dependencias_universales/de_lit

  • Descripción de la configuración : este treebank tiene como objetivo recopilar textos de la historia literaria alemana. Actualmente, alberga Fragmentos del primer romanticismo, es decir, textos aforísticos que tratan principalmente de cuestiones filosóficas relacionadas con el arte, la belleza y temas relacionados.

  • Tamaño de la descarga : 1.97 MiB

  • Tamaño del conjunto de datos : 2.49 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,922

dependencias_universales/de_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de descarga : 1.65 MiB

  • Tamaño del conjunto de datos : 2.20 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/got_perfil

  • Descripción de la configuración : el treebank gótico de UD se basa en los datos góticos del treebank PROIEL y consiste en la traducción de la Biblia de Wulfila.

  • Tamaño de la descarga : 4.98 MiB

  • Tamaño del conjunto de datos : 7.17 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 985
'test' 1,029
'train' 3,387

dependencias_universales/el_gdt

  • Descripción de la configuración : el treebank de UD griego (UD_Greek-GDT) se deriva del Treebank de dependencia griego ( http://gdt.ilsp.gr ), un recurso desarrollado y mantenido por investigadores del Instituto para el procesamiento del lenguaje y el habla/Athena RC ( http://www.ilsp.gr ).

  • Tamaño de la descarga : 5.52 MiB

  • Tamaño del conjunto de datos : 7.49 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 403
'test' 456
'train' 1,662

dependencias_universales/gub_tudet

  • Descripción de la configuración : UD_Guajajara-TuDeT es una colección de oraciones anotadas en Guajajara. Las oraciones provienen de múltiples fuentes, como descripciones del idioma, cuentos, diccionarios y traducciones del Nuevo Testamento. Anotación y documentación de oraciones por Lorena Martín Rodríguez y Fabrício Ferraz Gerardi.

  • Tamaño de la descarga : 683.38 KiB

  • Tamaño del conjunto de datos : 738.09 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,126

dependencias_universales/gn_oldtudet

  • Descripción de la configuración : UD_Guarani-OldTuDeT es una colección de textos anotados en guaraní antiguo. Se anotan todas las fuentes conocidas en este idioma: catetismos, gramáticas (siglos XVII y XVIII), frases de diccionarios y otros textos. Anotación y documentación de oraciones por Fabrício Ferraz Gerardi y Lorena Martín Rodríguez.

  • Tamaño de la descarga : 18.93 KiB

  • Tamaño del conjunto de datos : 24.71 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 59

dependencias_universales/he_htb

  • Descripción de la configuración : un corpus de dependencias universales para hebreo.

  • Tamaño de la descarga : 11.64 MiB

  • Tamaño del conjunto de datos : 16.10 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 484
'test' 491
'train' 5,241

dependencias_universales/he_iahltwiki

  • Descripción de la configuración : subconjunto disponible públicamente de la sección de Wikipedia de IAHLT UD Hebrew Treebank ( https://www.iahlt.org/ )

  • Tamaño de descarga : 10.30 MiB

  • Tamaño del conjunto de datos : 14.16 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 348
'test' 393
'train' 4,298

dependencias_universales/qfn_fame

  • Descripción de la configuración : ¡UD_Frisian_Dutch-Fame es una selección de 400 oraciones de FAME! corpus de habla de Yilmaz et al. (2016a, 2016b). El treebank se anota manualmente mediante el esquema UD.

  • Tamaño de la descarga : 232.57 KiB

  • Tamaño del conjunto de datos : 290.88 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 400

dependencias_universales/qhe_hiencs

  • Descripción de la configuración : el treebank de cambio de código hindi-inglés se basa en tweets de cambio de código de hablantes multilingües de hindi e inglés (principalmente indio) en Twitter. El treebank se anota manualmente usando el esquema UD. Los conjuntos de entrenamiento y evaluación fueron anotados por separado por diferentes anotadores utilizando las pautas UD v2 y v1 respectivamente. Los conjuntos de evaluación se convierten automáticamente de UD v1 a v2.

  • Tamaño de la descarga : 893.15 KiB

  • Tamaño del conjunto de datos : 1.53 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 225
'test' 225
'train' 1,448

dependencias_universales/hi_hdtb

  • Descripción de la configuración : el treebank Hindi UD se basa en el Treebank de dependencia hindi (HDTB), creado en IIIT Hyderabad, India.

  • Tamaño de la descarga : 49.18 MiB

  • Tamaño del conjunto de datos : 68.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,659
'test' 1,684
'train' 13,304

dependencias_universales/hola_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de la descarga : 2.20 MiB

  • Tamaño del conjunto de datos : 2.82 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/hu_szeged

  • Descripción de la configuración : el treebank húngaro UD se deriva del Treebank de dependencia de Szeged (Vincze et al. 2010).

  • Tamaño de la descarga : 2.92 MiB

  • Tamaño del conjunto de datos : 4.20 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 441
'test' 449
'train' 910

dependencias_universales/es_moderno

  • Descripción de la configuración : UD_Icelandic-Modern es una conversión de las adiciones modernas al corpus histórico analizado islandés (IcePaHC) al esquema de dependencias universales.

  • Tamaño de la descarga : 9.02 MiB

  • Tamaño del conjunto de datos : 12.32 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 784
'test' 768
'train' 5,376

dependencias_universales/is_icepahc

  • Descripción de la configuración : UD_Icelandic-IcePaHC es una conversión del corpus histórico analizado islandés (IcePaHC) al esquema de dependencias universales. La conversión se realizó utilizando UDConverter.

  • Tamaño de la descarga : 81.16 MiB

  • Tamaño del conjunto de datos : 112.07 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 4,865
'test' 5,157
'train' 34,007

dependencias_universales/is_pud

  • Descripción de la configuración : Icelandic-PUD es la parte islandesa de los treebanks de Parallel Universal Dependencies (PUD).

  • Tamaño de descarga : 1.45 MiB

  • Tamaño del conjunto de datos : 1.89 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/id_csui

  • Descripción de la configuración : UD Indonesian-CSUI es una conversión de un banco de árboles de distrito electoral de Indonesia en el formato de Penn Treebank llamado Kethu que también fue una conversión de un banco de árboles de distrito electoral creado por Dinakaramani et al. (2015). Llamamos a este banco de árboles Indonesian-CSUI, ya que las tres versiones de los bancos de árboles se construyeron en la Facultad de Ciencias de la Computación, Universitas Indonesia.

  • Tamaño de la descarga : 1.62 MiB

  • Tamaño del conjunto de datos : 1.97 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 374
'train' 656

dependencias_universales/id_gsd

  • Descripción de la configuración : el UD de Indonesia se convierte a partir de la versión principal de contenido del treebank de dependencia universal v2.0 (heredado).

  • Tamaño de la descarga : 9.15 MiB

  • Tamaño del conjunto de datos : 11.25 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 559
'test' 557
'train' 4,482

dependencias_universales/id_pud

  • Descripción de la configuración : Esta es una parte de los treebanks de Parallel Universal Dependencies (PUD) creados para la tarea compartida CoNLL 2017 sobre análisis multilingüe de texto sin procesar a dependencias universales.

  • Tamaño de la descarga : 1.10 MiB

  • Tamaño del conjunto de datos : 1.44 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

dependencias_universales/ga_idt

  • Descripción de la configuración : un árbol de dependencias universales de 4910 oraciones para el irlandés moderno.

  • Tamaño de la descarga : 7.62 MiB

  • Tamaño del conjunto de datos : 10.77 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 451
'test' 454
'train' 4,005

dependencias_universales/ga_twittirish

  • Descripción de la configuración : un árbol de dependencias universales de 866 tweets en irlandés moderno.

  • Tamaño de la descarga : 782.30 KiB

  • Tamaño del conjunto de datos : 1.13 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 866

dependencias_universales/it_isdt

  • Descripción de la configuración : el corpus italiano anotado de acuerdo con el esquema de anotación UD se obtuvo mediante la conversión de ISDT (Italian Stanford Dependency Treebank), publicado para la tarea compartida de análisis de dependencias de Evalita-2014 (Bosco et al. 2014).

  • Tamaño de la descarga : 20.03 MiB

  • Tamaño del conjunto de datos : 29.18 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 564
'test' 482
'train' 13,121

dependencias_universales/it_partut

  • Descripción de la configuración : UD_Italian-ParTUT es una conversión de un treebank paralelo multilingüe desarrollado en la Universidad de Turín y que consta de una variedad de géneros de texto, que incluyen charlas, textos legales y artículos de Wikipedia, entre otros.

  • Tamaño de la descarga : 3.42 MiB

  • Tamaño del conjunto de datos : 4.83 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 156
'test' 153
'train' 1,781

dependencias_universales/it_postwita

  • Descripción de la configuración : PoSTWITA-UD es una colección de tweets italianos anotados en Dependencias universales que se pueden explotar para el entrenamiento de los sistemas NLP para mejorar su rendimiento en los textos de las redes sociales.

  • Tamaño de la descarga : 7.27 MiB

  • Tamaño del conjunto de datos : 10.47 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 670
'test' 674
'train' 5,368

dependencias_universales/it_markit

  • Descripción de la configuración : es MarkIT Eso es nuevo: un Treebank italiano de construcciones marcadas. Teresa Paccosi, Alessio Palmero Aprosio and Sara Tonelli, To appear in Proceedings of the Eighth Italian Conference on Computational Linguistics 2022 (CLIC-it 2021)

  • Download size : 2.48 MiB

  • Dataset size : 3.44 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 341
'test' 341
'train' 613

universal_dependencies/it_valico

  • Config description : Manually corrected Treebank of Learner Italian drawn from the Valico corpus and correspondent corrected sentences.

  • Download size : 520.45 KiB

  • Dataset size : 657.38 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 398

universal_dependencies/it_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.56 MiB

  • Dataset size : 2.05 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000

universal_dependencies/it_twittiro

  • Config description : TWITTIRÒ-UD is a collection of ironic Italian tweets annotated in Universal Dependencies. The treebank can be exploited for the training of NLP systems to enhance their performance on social media texts, and in particular, for irony detection purposes.

  • Download size : 1.81 MiB

  • Dataset size : 2.51 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 144
'test' 142
'train' 1,138
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/it_vit

  • Config description : The UD_Italian-VIT corpus was obtained by conversion from VIT (Venice Italian Treebank), developed at the Laboratory of Computational Linguistics of the Università Ca' Foscari in Venice (Delmonte et al. 2007; Delmonte 2009; http://rondelmo.it/resource/VIT/Browser-VIT/index.htm ).

  • Download size : 16.77 MiB

  • Dataset size : 23.72 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 743
'test' 1,067
'train' 8,277
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ja_pudluw

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 4.37 MiB

  • Dataset size : 5.11 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ja_bccwjluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 59.20 MiB

  • Dataset size : 100.36 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 8,427
'test' 7,881
'train' 40,801
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ja_gsdluw

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 28.31 MiB

  • Dataset size : 33.97 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 507
'test' 543
'train' 7,050
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ja_bccwj

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Balanced Corpus of Contemporary Written Japanese'(BCCWJ).

  • Download size : 93.05 MiB

  • Dataset size : 157.62 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 8,427
'test' 7,881
'train' 40,801
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ja_gsd

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from Google UDT 2.0.

  • Download size : 43.21 MiB

  • Dataset size : 52.59 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 507
'test' 543
'train' 7,050
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ja_modern

  • Config description : This Universal Dependencies (UD) Japanese treebank is based on the definition of UD Japanese convention described in the UD documentation. The original sentences are from `Corpus of Historical Japanese' (CHJ).

  • Download size : 2.06 MiB

  • Dataset size : 2.70 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 822
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ja_pud

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/jv_csui

  • Config description : UD Javanese-CSUI is a dependency treebank in Javanese, a regional language in Indonesia with more than 60 million users. The original sentences were taken from OPUS, especially from the WikiMatrix v1 corpus. We revised the sentences that contained more Indonesian words than Javanese words and manually annotated them.

  • Download size : 141.40 KiB

  • Dataset size : 171.69 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 125
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/urb_tudet

  • Config description : UD_Kaapor-TuDeT is a collection of annotated sentences in Ka'apor. The project is a work in progress and the treebank is being updated on a regular basis.

  • Download size : 24.74 KiB

  • Dataset size : 33.60 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 83
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/xnr_kdtb

  • Config description : The Kangri UD Treebank (KDTB) is a part of the Universal Dependency treebank project.

  • Download size : 132.92 KiB

  • Dataset size : 196.42 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 288
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/krl_kkpp

  • Config description : UD Karelian-KKPP is a manually annotated new corpus of Karelian made in Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 220.80 KiB

  • Dataset size : 317.02 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 228
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/kk_ktb

  • Config description : The UD Kazakh treebank is a combination of text from various sources including Wikipedia, some folk tales, sentences from the UDHR, news and phrasebook sentences. Sentences IDs include partial document identifiers.

  • Download size : 833.88 KiB

  • Dataset size : 1.15 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,047
'train' 31
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/arr_tudet

  • Config description : UD_Karo-TuDeT is a collection of annotated sentences in Karo. The sentences stem from the only grammatical description of the language (Gabas, 1999) and from the sentences in the dictionary by the same author (Gabas, 2007). Sentence annotation and documentation by Fabrício Ferraz Gerardi.

  • Download size : 174.70 KiB

  • Dataset size : 259.24 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 674
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/kfm_aha

  • Config description : The AHA Khunsari Treebank is a small treebank for contemporary Khunsari. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Khunsari speakers.

  • Download size : 6.14 KiB

  • Dataset size : 7.56 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 10
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/quc_iu

  • Config description : UD Kʼicheʼ-IU is a treebank consisting of sentences from a variety of text domains but principally dictionary example sentences and linguistic examples.

  • Download size : 823.85 KiB

  • Dataset size : 1.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,435
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/koi_uh

  • Config description : This is a Komi-Permyak literary language treebank consisting of original and translated texts.

  • Download size : 99.43 KiB

  • Dataset size : 118.77 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 100
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/kpv_ikdp

  • Config description : This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.

  • Download size : 202.88 KiB

  • Dataset size : 273.92 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 214
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/kpv_lattice

  • Config description : UD Komi-Zyrian Lattice is a treebank of written standard Komi-Zyrian.

  • Download size : 741.82 KiB

  • Dataset size : 989.46 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 663
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ko_gsd

  • Config description : The Google Korean Universal Dependency Treebank is first converted from the Universal Dependency Treebank v2.0 (legacy), and then enhanced by Chun et al., 2018.

  • Download size : 4.66 MiB

  • Dataset size : 6.31 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 950
'test' 989
'train' 4,400
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ko_kaist

  • Config description : The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.

  • Download size : 20.84 MiB

  • Dataset size : 27.97 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 2,066
'test' 2,287
'train' 23,010
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ko_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.92 MiB

  • Dataset size : 2.12 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/kmr_mg

  • Config description : The UD Kurmanji corpus is a corpus of Kurmanji Kurdish. It contains fiction and encyclopaedic texts in roughly equal measure. It has been annotated natively in accordance with the UD annotation scheme.

  • Download size : 747.04 KiB

  • Dataset size : 1.07 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 734
'train' 20
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/la_ittb

  • Config description : Latin data from the Index Thomisticus Treebank. Data are taken from the Index Thomisticus corpus by Roberto Busa SJ, which contains the complete work by Thomas Aquinas (1225–1274; Medieval Latin) and by 61 other authors related to Thomas.

  • Download size : 40.75 MiB

  • Dataset size : 55.54 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 2,101
'test' 2,101
'train' 22,775
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/la_udante

  • Config description : The UDante treebank is based on the Latin texts of Dante Alighieri, taken from the DanteSearch corpus, originally created at the University of Pisa, Italy. It is a treebank of Latin language, more precisely of literary Medieval Latin (XIVth century).

  • Download size : 4.87 MiB

  • Dataset size : 6.65 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 376
'test' 419
'train' 926
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/la_llct

  • Config description : This Universal Dependencies version of the LLCT (Late Latin Charter Treebank) consists of an automated conversion of the LLCT2 treebank from the Latin Dependency Treebank (LDT) format into the Universal Dependencies standard.

  • Download size : 20.99 MiB

  • Dataset size : 27.77 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 850
'test' 884
'train' 7,289
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/la_perseus

  • Config description : This Universal Dependencies Latin Treebank consists of an automatic conversion of a selection of passages from the Ancient Greek and Latin Dependency Treebank 2.1

  • Download size : 2.45 MiB

  • Dataset size : 3.53 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 939
'train' 1,334
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/la_proiel

  • Config description : The Latin PROIEL treebank is based on the Latin data from the PROIEL treebank, and contains most of the Vulgate New Testament translations plus selections from Caesar's Gallic War, Cicero's Letters to Atticus, Palladius' Opus Agriculturae and the first book of Cicero's De officiis.

  • Download size : 17.58 MiB

  • Dataset size : 25.21 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,234
'test' 1,260
'train' 15,917
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/lv_lvtb

  • Config description : Latvian UD Treebank is based on Latvian Treebank (LVTB), being created at University of Latvia, Institute of Mathematics and Computer Science, Artificial Intelligence Laboratory.

  • Download size : 30.93 MiB

  • Dataset size : 42.49 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,957
'test' 2,325
'train' 12,521
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/lij_glt

  • Config description : The Genoese Ligurian Treebank is a small, manually annotated collection of contemporary Ligurian prose. The focus of the treebank is written Genoese, the koiné variety of Ligurian which is associated with today's literary, journalistic and academic ligurophone sphere.

  • Download size : 426.33 KiB

  • Dataset size : 636.88 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 296
'train' 20
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/lt_alksnis

  • Config description : The Lithuanian dependency treebank ALKSNIS v3.0 (Vytautas Magnus University).

  • Download size : 6.68 MiB

  • Dataset size : 9.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 617
'test' 684
'train' 2,341
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/lt_hse

  • Config description : Lithuanian treebank annotated manually (dependencies) using the Morphological Annotator by CCL, Vytautas Magnus University ( http://tekstynas.vdu.lt/ ) and manual disambiguation. A pilot version which includes news and an essay by Tomas Venclova is available here.

  • Download size : 255.28 KiB

  • Dataset size : 1.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 153
'test' 153
'train' 153
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/olo_kkpp

  • Config description : UD Livvi-KKPP is a manually annotated new corpus of Livvi-Karelian made directly in the Universal dependencies annotation scheme. The data is collected from VepKar corpora and consists of mostly modern news texts but also some stories and educational texts.

  • Download size : 119.00 KiB

  • Dataset size : 165.75 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 106
'train' 19
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/nds_lsdc

  • Config description : The UD Low Saxon LSDC dataset consists of sentences in 18 Low Saxon dialects from both Germany and the Netherlands. These sentences are (or are to become) part of the LSDC dataset and represent the language from the 19th and early 20th century in genres such as short stories, novels, speeches, letters and fairytales.

  • Download size : 209.01 KiB

  • Dataset size : 280.72 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 83
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/mt_mudt

  • Config description : MUDT (Maltese Universal Dependencies Treebank) is a manually annotated treebank of Maltese, a Semitic language of Malta descended from North African Arabic with a significant amount of Italo-Romance influence. MUDT was designed as a balanced corpus with four major genres (see Splitting below) represented roughly equally.

  • Download size : 1.92 MiB

  • Dataset size : 2.67 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 433
'test' 518
'train' 1,123
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/gv_cadhan

  • Config description : This is the Cadhan Aonair UD treebank for Manx Gaelic, created by Kevin Scannell.

  • Download size : 1.26 MiB

  • Dataset size : 1.79 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 2,319
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/mr_ufal

  • Config description : UD Marathi is a manually annotated treebank consisting primarily of stories from Wikisource, and parts of an article on Wikipedia.

  • Download size : 330.87 KiB

  • Dataset size : 496.00 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 46
'test' 47
'train' 373
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/gun_dooley

  • Config description : UD Mbya_Guarani-Dooley is a corpus of narratives written in Mbyá Guaraní (Tupian) in Brazil, and collected by Robert Dooley. Due to copyright restrictions, the corpus that is distributed as part of UD only contains the annotation (tags, features, relations) while the FORM and LEMMA columns are empty.

  • Download size : 560.08 KiB

  • Dataset size : 859.37 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,046
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/gun_thomas

  • Config description : UD Mbya_Guarani-Thomas is a corpus of Mbyá Guaraní (Tupian) texts collected by Guillaume Thomas. The current version of the corpus consists of three speeches by Paulina Kerechu Núñez Romero, a Mbyá Guaraní speaker from Ytu, Caazapá Department, Paraguay.

  • Download size : 90.88 KiB

  • Dataset size : 120.86 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 98
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/mdf_jr

  • Config description : Erme Universal Dependencies annotated texts Moksha are the origin of UD_Moksha-JR with annotation (CoNLL-U) for texts in the Moksha language, it originally consists of a sample from a number of fiction authors writing originals in Moksha.

  • Download size : 343.96 KiB

  • Dataset size : 451.57 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 342
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/myu_tudet

  • Config description : UD_Munduruku-TuDeT is a collection of annotated sentences in Mundurukú. Together with UD_Akuntsu-TuDeT and UD_Tupinamba-TuDeT, UD_Munduruku-TuDeT is part of the TuLaR project.

  • Download size : 67.85 KiB

  • Dataset size : 83.48 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 158
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/pcm_nsc

  • Config description : A Universal Dependencies corpus for spoken Naija (Nigerian Pidgin).

  • Download size : 16.99 MiB

  • Dataset size : 21.58 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 991
'test' 972
'train' 7,278
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/nyq_aha

  • Config description : The AHA Nayini Treebank is a small treebank for contemporary Nayini. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Nayini speakers.

  • Download size : 6.24 KiB

  • Dataset size : 7.72 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 10
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sme_giella

  • Config description : This is a North Sámi treebank based on a manually disambiguated and function-labelled gold-standard corpus of North Sámi produced by the Giellatekno team at UiT Norgga árktalaš universitehta.

  • Download size : 1.78 MiB

  • Dataset size : 2.72 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 865
'train' 2,257
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/no_bokmaal

  • Config description : The Norwegian UD treebank is based on the Bokmål section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 18.29 MiB

  • Dataset size : 27.60 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 2,409
'test' 1,939
'train' 15,696
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/no_nynorsk

  • Config description : The Norwegian UD treebank is based on the Nynorsk section of the Norwegian Dependency Treebank (NDT), which is a syntactic treebank of Norwegian. NDT has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 17.68 MiB

  • Dataset size : 26.46 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,890
'test' 1,511
'train' 14,174
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/no_nynorsklia

  • Config description : This Norwegian treebank is based on the LIA treebank of transcribed spoken Norwegian dialects. The treebank has been automatically converted to the UD scheme by Lilja Øvrelid at the University of Oslo.

  • Download size : 3.19 MiB

  • Dataset size : 4.78 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 881
'test' 957
'train' 3,412
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/cu_proiel

  • Config description : The Old Church Slavonic (OCS) UD treebank is based on the Old Church Slavonic data from the PROIEL treebank and contains the text of the Codex Marianus New Testament translation.

  • Download size : 5.92 MiB

  • Dataset size : 8.33 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,073
'test' 1,141
'train' 4,124
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/fro_srcmf

  • Config description : UD_Old_French-SRCMF is a conversion of (part of) the SRCMF corpus (Syntactic Reference Corpus of Medieval French srcmf.org).

  • Download size : 13.51 MiB

  • Dataset size : 18.54 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,887
'test' 1,989
'train' 14,153
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/orv_birchbark

  • Config description : UD Old_East_Slavic-Birchbark is based on the RNC Corpus of Birchbark Letters and includes documents written in 1025-1500 in an East Slavic vernacular (letters, household and business records, records for church services, spell against diseases, and other short inscriptions). The treebank is manually syntactically annotated in the UD 2.0 scheme, morphological and lexical annotation is a conversion of the original RNC annotation.

  • Download size : 4.04 MiB

  • Dataset size : 4.72 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,054
'test' 1,006
'train' 1,045
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/orv_rnc

  • Config description : UD_Old_Russian-RNC is a sample of the Middle Russian corpus (1300-1700), a part of the Russian National Corpus. The data were originally annotated according to the RNC and extended UD-Russian morphological schemas and UD 2.4 dependency schema.

  • Download size : 2.95 MiB

  • Dataset size : 4.02 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 648
'train' 422
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/orv_torot

  • Config description : UD_Old_Russian-TOROT is a conversion of a selection of the Old East Slavonic and Middle Russian data in the Tromsø Old Russian and OCS Treebank (TOROT), which was originally annotated in PROIEL dependency format.

  • Download size : 14.49 MiB

  • Dataset size : 20.13 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,852
'test' 1,756
'train' 13,336
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/otk_tonqq

  • Config description : UD_Old_Turkish-Tonqq is an Old Turkish treebank built upon Turkic script texts or sentences that are trivially convertible.

  • Download size : 10.44 KiB

  • Dataset size : 14.01 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 20
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/fa_perdt

  • Config description : The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. 'The Persian Dependency Treebank Made Universal'. 2020 (to appear).

  • Download size : 32.05 MiB

  • Dataset size : 43.48 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,456
'test' 1,455
'train' 26,196
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/fa_seraji

  • Config description : The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.

  • Download size : 9.43 MiB

  • Dataset size : 12.50 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 599
'test' 600
'train' 4,798
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/pl_lfg

  • Config description : The LFG Enhanced UD treebank of Polish is based on a corpus of LFG (Lexical Functional Grammar) syntactic structures generated by an LFG grammar of Polish, POLFIE, and manually disambiguated by human annotators.

  • Download size : 14.18 MiB

  • Dataset size : 18.96 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,745
'test' 1,727
'train' 13,774
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/pl_pdb

  • Config description : The Polish PDB-UD treebank is based on the Polish Dependency Bank 2.0 (PDB 2.0), created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw. The PDB-UD treebank is an extended and corrected version of the Polish SZ-UD treebank (the release 1.2 to 2.3).

  • Download size : 34.66 MiB

  • Dataset size : 47.62 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 2,215
'test' 2,215
'train' 17,722
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/pl_pud

  • Config description : This is the Polish portion of the Parallel Universal Dependencies (PUD) treebanks, created at the Institute of Computer Science, Polish Academy of Sciences in Warsaw.Re

  • Download size : 1.91 MiB

  • Dataset size : 2.52 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/pt_bosque

  • Config description : This Universal Dependencies (UD) Portuguese treebank is based on the Constraint Grammar converted version of the Bosque, which is part of the Floresta Sintá(c)tica treebank. It contains both European (CETEMPúblico) and Brazilian (CETENFolha) variants.

  • Download size : 14.29 MiB

  • Dataset size : 20.41 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,172
'test' 1,167
'train' 7,018
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/pt_gsd

  • Config description : The Brazilian Portuguese UD is converted from the Google Universal Dependency Treebank v2.0 (legacy).

  • Download size : 14.57 MiB

  • Dataset size : 20.34 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,204
'test' 1,200
'train' 9,615
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/pt_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.48 MiB

  • Dataset size : 1.95 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ro_art

  • Config description : The UD treebank ArT is a treebank of the Aromanian dialect of the Romanian language in UD format.

  • Download size : 44.38 KiB

  • Dataset size : 65.95 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 50
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ro_nonstandard

  • Config description : The Romanian Non-standard UD treebank (called UAIC-RoDia) is based on UAIC-RoDia Treebank. UAIC-RoDia = ISLRN 156-635-615-024-0

  • Download size : 48.00 MiB

  • Dataset size : 66.84 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,052
'test' 1,052
'train' 24,121
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ro_rrt

  • Config description : The Romanian UD treebank (called RoRefTrees) (Barbu Mititelu et al., 2016) is the reference treebank in UD format for standard Romanian.

  • Download size : 16.38 MiB

  • Dataset size : 22.96 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 752
'test' 729
'train' 8,043
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ro_simonero

  • Config description : SiMoNERo is a medical corpus of contemporary Romanian.

  • Download size : 11.36 MiB

  • Dataset size : 15.68 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 443
'test' 491
'train' 3,747
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ru_gsd

  • Config description : Russian Universal Dependencies Treebank annotated and converted by Google.

  • Download size : 8.42 MiB

  • Dataset size : 11.51 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 579
'test' 601
'train' 3,850
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ru_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.78 MiB

  • Dataset size : 2.26 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ru_syntagrus

  • Config description : Russian data from the SynTagRus corpus.

  • Download size : 97.99 MiB

  • Dataset size : 139.66 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 6,584
'test' 6,491
'train' 48,814
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ru_taiga

  • Config description : Universal Dependencies treebank is based on data samples extracted from Taiga Corpus and MorphoRuEval-2017 and GramEval-2020 shared tasks collections.

  • Download size : 18.12 MiB

  • Dataset size : 24.32 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 946
'test' 881
'train' 16,045
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sa_ufal

  • Config description : A small Sanskrit treebank of sentences from Pañcatantra, an ancient Indian collection of interrelated fables by Vishnu Sharma.

  • Download size : 414.72 KiB

  • Dataset size : 407.83 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 230
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sa_vedic

  • Config description : The Treebank of Vedic Sanskrit contains 4,000 sentences with 27,000 words chosen from metrical and prose passages of the Ṛgveda (RV), the Śaunaka recension of the Atharvaveda (ŚS), the Maitrāyaṇīsaṃhitā (MS), and the Aitareya- (AB) and Śatapatha-Brāhmaṇas (ŚB). Lexical and morpho-syntactic information has been generated using a tagging software and manually validated. POS tags have been induced automatically from the morpho-sytactic information of each word.

  • Download size : 1.95 MiB

  • Dataset size : 3.14 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,473
'train' 2,524
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/gd_arcosg

  • Config description : A treebank of Scottish Gaelic based on the Annotated Reference Corpus Of Scottish Gaelic (ARCOSG).

  • Download size : 5.07 MiB

  • Dataset size : 7.20 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 655
'test' 545
'train' 3,539
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sr_set

  • Config description : The Serbian UD treebank is based on the SETimes-SR corpus and additional news documents from the Serbian web.

  • Download size : 7.07 MiB

  • Dataset size : 10.04 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 536
'test' 520
'train' 3,328
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sms_giellagas

  • Config description : The UD Skolt Sami Giellagas treebank is based almost entirely on spoken Skolt Sami corpora.

  • Download size : 216.27 KiB

  • Dataset size : 299.21 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 218
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sk_snk

  • Config description : The Slovak UD treebank is based on data originally annotated as part of the Slovak National Corpus, following the annotation style of the Prague Dependency Treebank.

  • Download size : 9.55 MiB

  • Dataset size : 13.87 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,060
'test' 1,061
'train' 8,483
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sl_ssj

  • Config description : The Slovenian UD Treebank is a rule-based conversion of the ssj500k treebank, the largest collection of manually syntactically annotated data in Slovenian, originally annotated in the JOS annotation scheme.

  • Download size : 19.82 MiB

  • Dataset size : 28.72 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,250
'test' 1,282
'train' 10,903
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sl_sst

  • Config description : The Spoken Slovenian UD Treebank (SST) is the first syntactically annotated corpus of spoken Slovenian, based on a sample of the reference GOS corpus, a collection of transcribed audio recordings of monologic, dialogic and multi-party spontaneous speech in different everyday situations.

  • Download size : 2.53 MiB

  • Dataset size : 3.88 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,110
'train' 2,078
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/soj_aha

  • Config description : The AHA Soi Treebank is a small treebank for contemporary Soi. Its corpus is collected and annotated manually. We have prepared this treebank based on interviews with Soi speakers.

  • Download size : 4.47 KiB

  • Dataset size : 5.58 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 8
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ajp_madar

  • Config description : The South_Levantine_Arabic-MADAR treebank consists of 100 manually-annotated sentences taken from the MADAR (Multi-Arabic Dialect Applications and Resources) project.

  • Download size : 42.16 KiB

  • Dataset size : 65.64 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 100
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/es_ancora

  • Config description : Spanish data from the AnCora corpus.

  • Download size : 50.23 MiB

  • Dataset size : 66.53 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,654
'test' 1,721
'train' 14,287
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/es_gsd

  • Config description : The Spanish UD is converted from the content head version of the universal dependency treebank v2.0 (legacy).

  • Download size : 24.86 MiB

  • Dataset size : 36.42 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,400
'test' 426
'train' 14,187
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/es_pud

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/swl_sslc

  • Config description : The Universal Dependencies treebank for Swedish Sign Language (ISO 639-3: swl) is derived from the Swedish Sign Language Corpus (SSLC) from the department of linguistics, Stockholm University.

  • Download size : 79.78 KiB

  • Dataset size : 122.04 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 82
'test' 34
'train' 87
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sv_lines

  • Config description : UD Swedish_LinES is the Swedish half of the LinES Parallel Treebank with UD annotations. All segments are translations from English and the sources cover literary genres, online manuals and Europarl data.

  • Download size : 6.91 MiB

  • Dataset size : 9.18 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,032
'test' 1,035
'train' 3,176
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sv_pud

  • Config description : Swedish-PUD is the Swedish part of the Parallel Universal Dependencies (PUD) treebanks.

  • Download size : 1.64 MiB

  • Dataset size : 2.13 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sv_talbanken

  • Config description : The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.

  • Download size : 8.08 MiB

  • Dataset size : 11.40 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 504
'test' 1,219
'train' 4,303
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/gsw_uzh

  • Config description : _UD_Swiss German-UZH is a tiny manually annotated treebank of 100 sentences in different Swiss German dialects and a variety of text genres.

  • Download size : 58.28 KiB

  • Dataset size : 86.61 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 100
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tl_trg

  • Config description : UD_Tagalog-TRG is a UD treebank manually annotated using sentences from a grammar book.

  • Download size : 59.91 KiB

  • Dataset size : 84.14 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 128
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tl_ugnayan

  • Config description : Ugnayan is a manually annotated Tagalog treebank currently composed of educational fiction and nonfiction text. The treebank is under development at the University of the Philippines.

  • Download size : 53.91 KiB

  • Dataset size : 76.16 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 94
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ta_mwtt

  • Config description : MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called 'A Grammar of Modern Tamil' by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.

  • Download size : 394.18 KiB

  • Dataset size : 499.94 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 534
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ta_ttb

  • Config description : The UD Tamil treebank is based on the Tamil Dependency Treebank created at the Charles University in Prague by Loganathan Ramasamy.

  • Download size : 1.68 MiB

  • Dataset size : 2.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 80
'test' 120
'train' 400
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/te_mtg

  • Config description : The Telugu UD treebank is created in UD based on manual annotations of sentences from a grammar book.

  • Download size : 628.67 KiB

  • Dataset size : 866.20 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 131
'test' 146
'train' 1,051
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/th_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.53 MiB

  • Dataset size : 1.85 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tpn_tudet

  • Config description : UD_Tupinamba-TuDeT is a collection of annotated texts in Tupi(nambá). Together with UD_Akuntsu-TuDeT and UD_Munduruku-TuDeT, UD_Tupinamba-TuDeT is part of the TuLaR. The treebank is ongoing work and is constantly being updated.

  • Download size : 293.55 KiB

  • Dataset size : 371.48 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 546
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/qtd_sagt

  • Config description : UD Turkish-German SAGT is a Turkish-German code-switching treebank that is developed as part of the SAGT project.

  • Download size : 2.78 MiB

  • Dataset size : 4.28 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 801
'test' 805
'train' 578
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_atis

  • Config description : This treebank is a translation of English ATIS (Airline Travel Information System) corpus (see References). It consists of 5432 sentences.

  • Download size : 3.26 MiB

  • Dataset size : 5.09 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 572
'test' 586
'train' 4,274
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_tourism

  • Config description : Turkish Tourism is a domain specific treebank consisting of 19,750 manually annotated sentences and 92,200 tokens. These sentences were taken from the original customer reviews of a tourism company.

  • Download size : 6.48 MiB

  • Dataset size : 11.24 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 2,166
'test' 2,191
'train' 15,476
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_kenet

  • Config description : Turkish-Kenet UD Treebank is the biggest treebank of Turkish. It consists of 18,700 manually annotated sentences and 178,700 tokens. Its corpus consists of dictionary examples.

  • Download size : 12.16 MiB

  • Dataset size : 19.00 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 1,646
'test' 1,643
'train' 15,398
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_penn

  • Config description : Turkish version of the Penn Treebank. It consists of a total of 9,560 manually annotated sentences and 87,367 tokens. (It only includes sentences up to 15 words long.)

  • Download size : 12.29 MiB

  • Dataset size : 18.82 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 622
'test' 924
'train' 14,850
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_framenet

  • Config description : Turkish FrameNet consists of 2,700 manually annotated example sentences and 19,221 tokens. Its data consists of the sentences taken from the Turkish FrameNet Project. The annotated sentences can be filtered according to the semantic frame category of the root of the sentence.

  • Download size : 1.43 MiB

  • Dataset size : 2.28 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 205
'test' 205
'train' 2,288
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_boun

  • Config description : The largest Turkish dependency treebank annotated in UD style. Created by the members of TABILAB from Boğaziçi University.

  • Download size : 9.07 MiB

  • Dataset size : 13.24 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 979
'test' 979
'train' 7,803
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_gb

  • Config description : This is a treebank annotating example sentences from a comprehensive grammar book of Turkish.

  • Download size : 1.41 MiB

  • Dataset size : 2.02 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 2,880
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_imst

  • Config description : The UD Turkish Treebank, also called the IMST-UD Treebank, is a semi-automatic conversion of the IMST Treebank (Sulubacak et al., 2016).

  • Download size : 4.51 MiB

  • Dataset size : 6.70 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 988
'test' 983
'train' 3,664
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/tr_pud

  • Config description : This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.

  • Download size : 1.29 MiB

  • Dataset size : 1.65 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,000
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/uk_iu

  • Config description : Gold standard Universal Dependencies corpus for Ukrainian, developed for UD originally, by Institute for Ukrainian, NGO. [українською]

  • Download size : 16.54 MiB

  • Dataset size : 21.99 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 672
'test' 892
'train' 5,496
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/hsb_ufal

  • Config description : A small treebank of Upper Sorbian based mostly on Wikipedia.

  • Download size : 762.63 KiB

  • Dataset size : 1.11 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 623
'train' 23
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ur_udtb

  • Config description : The Urdu Universal Dependency Treebank was automatically converted from Urdu Dependency Treebank (UDTB) which is part of an ongoing effort of creating multi-layered treebanks for Hindi and Urdu.

  • Download size : 15.16 MiB

  • Dataset size : 21.57 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 552
'test' 535
'train' 4,043
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ug_udt

  • Config description : The Uyghur UD treebank is based on the Uyghur Dependency Treebank (UDT), created at the Xinjiang University in Ürümqi, China.

  • Download size : 3.30 MiB

  • Dataset size : 4.59 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 900
'test' 900
'train' 1,656
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/vi_vtb

  • Config description : The Vietnamese UD treebank is a conversion of the constituent treebank created in the VLSP project ( https://vlsp.hpda.vn/ ).

  • Download size : 1.96 MiB

  • Dataset size : 2.81 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 800
'test' 800
'train' 1,400
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/wbp_ufal

  • Config description : A small treebank of grammatical examples in Warlpiri, taken from linguistic literature.

  • Download size : 37.58 KiB

  • Dataset size : 47.36 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 55
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/cy_ccg

  • Config description : UD Welsh-CCG (Corpws Cystrawennol y Gymraeg) is a treebank of Welsh, annotated according to the Universal Dependencies guidelines.

  • Download size : 2.28 MiB

  • Dataset size : 3.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 953
'train' 976
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/hy_armtdp

  • Config description : A Universal Dependencies treebank for Eastern Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.

  • Download size : 6.56 MiB

  • Dataset size : 8.50 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 249
'test' 277
'train' 1,974
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/wo_wtb

  • Config description : UD_Wolof-WTB is a natively manual developed treebank for Wolof. Sentences were collected from encyclopedic, fictional, biographical, religious texts and news.

  • Download size : 2.65 MiB

  • Dataset size : 3.78 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'dev' 449
'test' 470
'train' 1,188
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sjo_xdt

  • Config description : The UD Xibe Treebank is a corpus of the Xibe language (ISO 639-3: sjo) containing manually annotated syntactic trees under the Universal Dependencies. Sentences come from three sources: grammar book examples, newspaper (Cabcal News) and Xibe textbooks.

  • Download size : 1.50 MiB

  • Dataset size : 1.74 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 810
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/sah_yktdt

  • Config description : UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences ( https://glottolog.org/resource/languoid/id/yaku1245 ). The project is work-in-progress and the treebank is being updated on a regular basis

  • Download size : 51.76 KiB

  • Dataset size : 61.70 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 96
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/yo_ytb

  • Config description : Parts of the Yoruba Bible and of the Yoruba edition of Wikipedia, hand-annotated natively in Universal Dependencies.

  • Download size : 554.64 KiB

  • Dataset size : 767.54 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 318
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.

universal_dependencies/ess_sli

  • Config description : UD_Yupik-SLI is a treebank of St. Lawrence Island Yupik (ISO 639-3: ess) that has been manually annotated at the morpheme level, based on a finite-state morphological analyzer by Chen et al., 2020. The word-level annotation, merging multiword expressions, is provided in not-to-release/ess_sli-ud-test.merged.conllu. More information about the treebank can be found in our publication (AmericasNLP, 2021).

  • Download size : 302.87 KiB

  • Dataset size : 410.25 KiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 309
  • Ejemplos ( tfds.as_dataframe ): Solo se muestra para las primeras 100 configuraciones.