VYTĚŽOVÁNÍ KORPUSU
Vytěžování korpusu je dáno především typem informace v jazykových korpusech obsažené a možnostmi nástrojů pro jejich analyzování. Jaz. ↗korpusy představují zejména rozsáhlou databázi, soubory realizací jaz. Z tohoto titulu je informace v nich obsažená především informací o úzu (nikoli o potenci jaz.). Korpusový výzkum se proto zaměřuje především na jevy centrální, odhaluje převažující tendence a preference jaz. jednotek v úzu. Jen velmi obtížně je možné korpus využívat k zjišťování negativní informace (co v jaz. použít nelze, které typy vyjádření se vzájemně odpuzují apod.). Na základě těchto pozorování ↗parole usuzujeme na povahu úzu i podobu jaz. systému (↗langue).
Korpus poskytuje bezprostředně pouze informaci syntagmatického charakteru (u každého hledaného jevu zobrazuje jeho úhrnný kontext, který je možné dále třídit, kvantifikovat a analyzovat). Na rozdíl od excerpčních databází, které jsou výběrové a s omezeným kontextem, se v korpusu zrcadlí především to, co je běžné a preferované. Zprostředkovaně pak korpus nabízí i informace paradigmatického charakteru (kolokační paradigma, morfologické paradigma prostřednictvím paralelních dotazů, slovotvorné paradigma, stylové využití prostředku apod.). Vzhledem k tomu, že velký obecný korpus je jako zdroj dat nevýběrový, poskytuje informaci o úzu v té podobě, v jaké byl realizován, což nemusí být (a často není) ve shodě s tím, jaký úzus vyžaduje jaz. regulace.
- Cvrček, V. & D. Kováříková. Možnosti a meze korpusové lingvistiky. NŘ 94, 2011, 113–133.
- Viz také Aplikace korpusové lingvistiky, Korpusová metodologie, Český národní korpus.
URL: https://www.czechency.org/slovnik/VYTĚŽOVÁNÍ KORPUSU (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka