ČESKÝ NÁRODNÍ KORPUS (ČNK)
Projekt založený v roce 1994 F. Čermákem (institucionálně zaštítěn Ústavem Českého národního korpusu při FF UK). Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem ↗korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: (i) synchronní ↗psané korpusy, řada SYN (v celkovém objemu 1,3 miliardy slov), (ii) synchronní ↗mluvené korpusy, konkrétně PMK (Pražský mluvený korpus, 0,67 mil. slov) a BMK (Brněnský mluvený korpus, 0,5 mil. slov) a zvláště řada Oral (v celkovém rozsahu 2 mil. slov), (iii) ↗diachronní korpus DIAKORP, pokrývající období od 13. stol. do roku 1945 (v celkovém rozsahu přes 2 mil. slov) a (iv) ↗paralelní korpus InterCorp, zahrnující texty v č. a jejich překlady do jednoho n. více z celkem 27 jaz. (v celkovém objemu 92 mil. slov). Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům.
Projekt ČNK se kromě budování korpusů (a tedy mapování jaz. stavu a vývoje č.) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (NLP), vývoji nových nástrojů pro vytěžování korpusů (např SyD; viz ↗korpusový a lingvistický software) a rozvoji metodologie korpusové lingvistiky i její popularizaci.
- Internetové stránky projektu ČNK (http://korpus.cz/).
- Internetová příručka projektu ČNK ve formě wiki (http://wiki.korpus.cz/).
- Viz také Mluvený korpus.
URL: https://www.czechency.org/slovnik/ČESKÝ NÁRODNÍ KORPUS (poslední přístup: 3. 12. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka