ANOTACE
V korpusové lingvistice proces, při němž se přidávají (a) interpretativní lingvistické údaje a/nebo (b) strukturní/segmentační údaje a/nebo (c) bibliografické údaje, příp. údaje další k textovým datům ↗korpusu, textovým dokumentům; viz např. ✍Leech (1993), ✍Hajič (2004), ✍Karlsson & Voutilainen ad. (eds.) (1995). Lingvistickými interpretačními údaji jsou např. morfologické údaje přiřazované jednotlivým slovním tvarům či syntaktické údaje přiřazované jednotlivým slovním tvarům či jejich skupinám, n. údaje sémantické, údaje o chybách v textu a další. Při morfologické a. se danému slovnímu tvaru typicky přiřadí jeho ↗lemma a hodnoty morfologických kategorií vč. slovního druhu (procesem ↗morfologické analýzy a následné ↗lemmatizace a morfologické ↗disambiguace). Strukturní/segmentační údaje stanoví např. identitu dokumentu, vymezují začátek a konec věty procesem větné ↗segmentace. Při a. se textové dokumenty obvykle opatřují též bibliografickými informacemi, případně dalšími údaji charakterizujícími dokument. V korpusech je pak možné vyhledávat podle uvedených typů údajů. Z implementačního hlediska se anotační údaje buď přidávají přímo k surovým textům, takže se s nimi prolínají, n. jsou od nich oddělené (stand‑off a.).
Někdy se a. rozumí jen ruční, neautomatické přidávání lingvistických údajů; automatické dodávání lingvistických údajů se v tomto případě nazývá tagování či ↗značkování.
- Brants, T. TnT – A Statistical Part‑of‑Speech Tagger. In Nirenburg, S. (ed.), Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, 2000, 224–231.
- Brill, E. A Simple Rule‑Based Part‑of‑Speech Tagger. In Bates, M. & O. Stock (eds.), Proceedings of the Third Conference on Applied Natural Language Processing, 1992, 152–155.
- Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
- Hajič, J. & B. Hladká. Morfologické značkování korpusu českých textů stochastickou metodou. SaS 4, 1997, 288–304.
- Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
- Karlsson, F. & A. Voutilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
- Květoň, P. Rule-Based Morphological Disambiguation (Towards a Combination of Linguistic and Stochastic Methods). PhD. dis., MFF UK, 2006.
- Květoň, P. & K. Oliva. Achieving an Almost Correct PoS‑Tagged Corpus. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Fifth International Conference, TSD 2002, LNAI 2448, 2002, 19–26.
- Leech, G. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
- Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Anotátorská příručka). ÚFAL/CKL technical report TR‑2006‑28, 2005.
- Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Referenční příručka). ÚFAL/CKL technical report TR‑2006‑31, 2006.
- Petkevič, V. Reliable Morphological Disambiguation of Czech.: Rule‑Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
- Votrubec, J. Návrh vhodné sady rysů pro morfologické značkování češtiny. Mgr. dipl. práce, MFF UK, Praha, 2005.
- Viz také Kódování.
URL: https://www.czechency.org/slovnik/ANOTACE (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka