TYPE-TOKEN
1. Z hlediska korpusové lingvistiky: type (typ) jednotka abstrakce, ↗token vždy konkrétní realizace jednotky (konkrétní výskyt formy) v určitém kontextu; typ je jednotka dekontextualizovaná, která je schopna nabývat takových vlastností, jako je ↗frekvence. Zatímco velikost ↗korpusu je udávána v počtu tokenů (označuje se většinou jako N), počet typů značí množství různých jednotek v korpusu (označuje se většinou V = vocabulary). Typ může být v podstatě libovolná jednotka, nejčastěji se ovšem v této souvislosti uvažuje o slovním tvaru n. ↗lemmatu.
TTR (token-type ratio) je poměr počtu různých slov (typů) k celkovému počtu všech slov v korpusu (někdy vyjádřený v procentech). Pokud je poměr vysoký, můžeme mluvit o textu s velkou lexikální bohatostí (užívá mnoho různých jednotek), malý poměr značí velkou míru opakování.
Type-token jako ukazatel je silně vázaný na celkovou velikost korpusu, je proto jen obtížně využitelný jako obecný referenční ukazatel. Čím delší text máme k dispozici, tím větší je poměr mezi tokeny a typy (ačkoli vztah není lineární; viz ↗Heapsův zákon). Viz také ↗token.
2. Distinkce type-token se užívá v odlišném smyslu v teorii vědy a sémiotice k označení rozdílu mezi obecným pojmem a jeho konkrétním výskytem či podobou.
- Baayen, H. R. Word Frequency Distributions, 2001.
- Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
- Biber, D. & S. Conrad ad. Corpus Linguistics. Investigating Language Structure and Use, 1998.
URL: https://www.czechency.org/slovnik/TYPE-TOKEN (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka