TOKENIZACE
V korpusové lingvistice automatický proces, který člení text složený z písmen, interpunkčních znamének a mezer na jednotlivé izolované ↗tokeny, tj. na slovní tvary a interpunkční znaménka pro účely dalšího (obvykle počítačového) zpracování; viz ✍Baker & Hardie ad. (2006); ✍Jelínek & Petkevič (2011). Při t. se typicky odděluje interpunkce od následujícího či předcházejícího slova, v některých případech se rozděluje slovo skládající se z více slov spojených spojovníkem, identifikují se zkratky končící či nekončící tečkou. T. je obvykle první fází zpracování textu, typicky bezprostředně předchází procesu ↗větné segmentace a ↗morfologické analýzy. T. provádí počítačový program zvaný ↗tokenizér. Např. věta „Chcete-li mi to dát, neváhejte!“ by se na tokeny rozdělila takto:
„ |
Chcete |
- |
li |
mi |
to |
dát |
, |
neváhejte |
! |
“ |
T. řeší obecně netriviální problémy: identifikaci ortografických × morfologických × syntaktických slov, spřežek a víceslovných výrazů. Např. některá ortografická slova jsou morfologicky tvořena dvěma, ba třemi slovy: ohlas je buď imperativem slovesa ohlásit, n.nom./akuz. substantiva mužského neživ. rodu ohlas, n. 2.os.sg.fem. minulého času slovesa ohnout – v tomto případě se skládá z participia ohla a enklitického formantu ‑s, takže je lze morfologicky rozložit na tvar ohla a ‑s (= jsi), což může být výhodné pro další morfologické a syntaktické zpracování textu. Viz také ↗token, ↗tokenizér.
- Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
- Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2001, 154–170.
URL: https://www.czechency.org/slovnik/TOKENIZACE (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka