METADATA
Standardizované, strukturované informace doplňující vlastní text ↗korpusu údaji o jeho obsahu, původu n. lingvistické interpretaci. M. jsou obohacením textu a zvyšují možnosti využití korpusových dat. M. lze ukládat v mnoha formátech, nejběžnějším z nich je ↗XML.
M. mohou mít různou povahu podle úrovně, k níž se vztahují: k celému korpusu, ke konkrétnímu textu, k jeho části n. k jednotlivému slovnímu tvaru. Na úrovni celých textů jde např. o bibliografické údaje, označení žánru a původu textu, údaje o nahrávce, licenci n. záznam toho, jakými verzemi kterých nástrojů byl text zpracován (viz ↗korpus a jeho příprava). Veškeré zásahy (změny n. vypuštění částí textu), k nimž v průběhu zpracování došlo, lze také zaznamenávat na konkrétní místa v textu tak, aby byla rekonstruovatelná jeho původní podoba. Pomocí m. lze text členit na menší celky (↗segmentace), strukturovat ho (↗parsing), přidávat ↗anotaci konkrétních jednotek (výsledky ↗lemmatizace a ↗tagování), tyto jednotky sdružovat (označení víceslovných jednotek) aj.
M. lze vkládat buď přímo do textu (inline markup; příklad je možné najít v hesle ↗jazyky značkovací), n. naopak odděleně od něj ve zvláštním souboru, z něhož pak na konkrétní místa v textu vedou odkazy (stand‑off markup). Tento druhý způsob umožňuje anotovat týž text několika různými, navzájem nezávislými způsoby, práce s ním je však náročnější.
- Burnard, L. Metadata for Corpus Work. In Wynne, M. (ed.), Developing Linguistic Corpora – a Guide to Good Practice (http://www.ahds.ac.uk/creating/), 2005.
URL: https://www.czechency.org/slovnik/METADATA (poslední přístup: 3. 12. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka