N-GRAM
Prosté zřetězení, posloupnost n jednotek stejného druhu (písmen, častěji však slov) v textu. Mezi členy n. se automaticky nepředpokládá lingvistický vztah. O n. se mluví většinou jako o typech, při jejich popisu tedy není zkoumána jejich konkrétní realizace, ale celková ↗frekvence, příp. distribuce v textech atp. (srov. ↗type‑token). Studium n. je výrazem snahy objevovat v povrchově pouze syntagmatickém toku textu opakovaně se vyskytující shluky jednotek, které mají languovou povahu (srov. ↗kolokace, ↗corpus‑driven výzkum).
Bigramy jsou tak v základu zkoumání kolokací (ačkoli i kolokace mohou být více než dvouslovné). Základní odlišnost bigramu od kolokace je fakt jeho neustálené povahy a neprovázanosti členů (každá kolokace je zároveň bigramem, ne každý bigram je ovšem kolokací, srov. nejčastější bigram jak se).
Trigramy, tetragramy apod. vznikají zřetězením více slov, jejich frekventovaný souvýskyt značí ustálenou jednotku, jejíž význam může vyjadřovat celou propozici (zdálo se mi, že; jsem si myslel, že; podíval jsem se na; to je v pořádku apod.).
- Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
URL: https://www.czechency.org/slovnik/N-GRAM (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka