TOKENIZACE

▲

►

Základní

V korpusové lingvistice automatický proces, který člení text složený z písmen, interpunkčních znamének a mezer na jednotlivé izolované ↗tokeny, tj. na slovní tvary a interpunkční znaménka pro účely dalšího (obvykle počítačového) zpracování; viz ✍Baker & Hardie ad. (2006); ✍Jelínek & Petkevič (2011). Při t. se typicky odděluje interpunkce od následujícího či předcházejícího slova, v některých případech se rozděluje slovo skládající se z více slov spojených spojovníkem, identifikují se zkratky končící či nekončící tečkou. T. je obvykle první fází zpracování textu, typicky bezprostředně předchází procesu ↗větné segmentace a ↗morfologické analýzy. T. provádí počítačový program zvaný ↗tokenizér. Např. věta „Chcete-li mi to dát, neváhejte!“ by se na tokeny rozdělila takto:

„

Chcete

dát

neváhejte

“

T. řeší obecně netriviální problémy: identifikaci ortografických × morfologických × syntaktických slov, spřežek a víceslovných výrazů. Např. některá ortografická slova jsou morfologicky tvořena dvěma, ba třemi slovy: ohlas je buď imperativem slovesa ohlásit, n.nom./akuz. substantiva mužského neživ. rodu ohlas, n. 2.os.sg.fem. minulého času slovesa ohnout – v tomto případě se skládá z participia ohla a enklitického formantu ‑s, takže je lze morfologicky rozložit na tvar ohla a ‑s (= jsi), což může být výhodné pro další morfologické a syntaktické zpracování textu. Viz také ↗token, ↗tokenizér.

▲

►

Rozšiřující

Literatura

Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2001, 154–170.

Citace

Vladimír Petkevič (2017): TOKENIZACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TOKENIZACE (poslední přístup: 1. 4. 2025)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

TOKENIZACE

Další pojmy: