ANOTAČNÍ SCHÉMA (anotační systém)
↗Tagset, čili množina lingvistických interpretačních značek především pro slova, ale např. i pro skupiny slov (syntaktické fráze) v korpusu, a její popis. Zvolené kategorie a jejich hodnoty v a.s. obvykle vycházejí z nějakého popisu či teorie přirozeného jaz. A.s. a příslušný tagset typicky popisují morfologii (vč. slovních druhů), syntax či sémantiku, pomocí nějakého tagsetu se však dají popsat všechny roviny lingvistického popisu. A.s. (i) popisuje způsob, jak provádět ↗anotaci textového dokumentu, n. (ii) představuje přímo strukturu anotovaného dokumentu. V případě (i) se rozlišují zvl. tyto typy anotace definované pomocí a.s.: přidávání (a) lingvistických a/nebo (b) strukturních/segmentačních a/nebo (c) bibliografických, popř. dalších údajů k textovým datům. Při anotaci lingvistické obsahuje a.s. tagset, čili soubor lingvistických interpretačních značek především pro slova, ale i pro části slov či skupiny slov (syntaktické fráze) v korpusu (např. při anotaci syntaktické n. anotaci víceslovných spojení), a také popis značek spolu se závaznými anotačními směrnicemi. Při lingvistické anotaci vycházejí zvolené kategorie a jejich hodnoty definované v a.s. obvykle z nějakého popisu či teorie přirozeného jaz. A.s. a příslušný tagset typicky popisují morfologii (vč. slovních druhů), syntax, existují však i tagsety zachycující fonetiku, fonologii, sémantiku a pragmatiku daného jaz.; pomocí nějakého tagsetu se však dá popsat každá rovina lingvistického popisu či několik rovin naráz. Aby se správnost struktury anotovaného dokumentu dala automaticky prověřovat, obsahuje a.s. obvykle formální popis struktury v podobě šablony zvané ↗document type definition (DTD) (↗značkovací jazyky). V případě (ii) představuje a.s. anotovanou strukturu samu; takovou strukturou je např. popis věty a její struktury na více úrovních při tzv. víceúrovňové strukturní anotaci, jež může zachycovat i vztahy mezi jednotlivými rovinami, odkazování apod.
- Čermák, F. & J. Klímová ad. (eds.) Studie z korpusové lingvistiky, 2000.
- Garside, R. & G. Leech ad. Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
- Hajič, J. Popis morfologických značek – poziční systém, 2000 (http://ucnk.ff.cuni.cz/).
- Hlaváčová, J. Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. PhD. dis., FF UK, Praha, 2009.
- Leech, G. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
- Leech, G. Adding Linguistic Annotation. In Wynne, M. (ed.), Developing Linguistic Corpora: A Guide to Good Practice, 2004.
- Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Anotátorská příručka). ÚFAL/CKL technical report TR‑2006‑28, 2005.
- Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Referenční příručka). ÚFAL/CKL technical report TR‑2006‑31, 2006.
- The Prague Dependency Treebank 2.0, 2006 (http://ufal.mff.cuni.cz/).
- Sedláček, R. Morphematic Analyser for Czech. PhD. dis., FI MU, Brno, 2004.
- Šmerk, P. K počítačové morfologické analýze češtiny. PhD. dis., FI MU, Brno, 2010.
- Votrubec, J. Návrh vhodné sady rysů pro morfologické značkování češtiny. Mgr. dipl. práce, MFF UK, Praha, 2005.
URL: https://www.czechency.org/slovnik/ANOTAČNÍ SCHÉMA (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka