TOKEN
▲
►
Základní
Nejmenší jednotka textu, většinou grafické slovo, resp. jedna jeho realizace (↗type‑token). V korpusové lingvistice je v některých případech jedno grafické slovo rozděleno na dvě slova (např. mohu ‑li), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího či následujícího slova (3 tokeny: řekl , že). O jednotlivých t. v korpusu se také mluví jako o pozicích. – Velikost ↗korpusu se udává v t.n. také v ↗textových slovech. Rozčlenění textu na t. je výsledkem procesu ↗tokenizace. Viz také ↗tokenizér.
▲
►
Rozšiřující
Literatura
- Viz Tokenizace.
Citace
Václav Cvrček
(2017): TOKEN.
In: Petr Karlík, Marek Nekula,
Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TOKEN (poslední přístup: 23. 11. 2024)
URL: https://www.czechency.org/slovnik/TOKEN (poslední přístup: 23. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka