ZNAČKOVACÍ JAZYK
Jazyk v korpusové lingvistice formálně definující způsoby, jimiž lze do textů zapisovat ↗metadata. Metadata jsou typicky vkládána přímo do textu, jsou však od něj oddělena speciálními znaky. Zároveň je třeba upozornit na širší použití z.j. v mnoha dalších oblastech mimo korpusovou lingvistiku a nejenom pro anotaci textů; XML (viz dále) se např. používá také pro popis datových struktur.
Nejpoužívanějším z.j. a standardem v této oblasti je XML (eXtensible Markup Language), nástupce obecnějšího, ale příliš složitého standardu SGML (Standard Generalized Markup Language). XML je – stejně jako SGML – vlastně metajazyk, který umožňuje v rámci obecné XML syntaxe definovat vlastní z.j. (takto byl ze SGML odvozen z.j. webových stránek HTML). To se děje pomocí tzv. schémat: DTD (Document Type Definition) n. nověji XSD (XML Schema Definition), které nabízí širší možnosti než DTD.
Schéma formálně definuje strukturu dokumentu (ta musí být vždy hierarchická), použité elementy a vztahy mezi nimi. Jednotlivé XML dokumenty odpovídající různým schématům se tedy mohou výrazně lišit, jednotícím prvkem je použití XML tagů uzavřených mezi znaky < a >. Proto je v jednotlivých oblastech použití XML žádoucí standardizace, tj. používání kompatibilních XML schémat. Pro elektronické texty se často používají formáty odpovídající TEI Guidelines, standardu zveřejňovaného organizací Text Encoding Initiative, běžné jsou ale i proprietární formáty jednotlivých projektů.
Příklad níže ukazuje počáteční část jednoho ze souborů korpusu ↗InterCorp odpovídajícího č. verzi knihy N. J. Mandelštamové Dvě knihy vzpomínek ve formátu XML. Na druhém řádku souboru najdeme odkaz na DTD s definicí struktury celého dokumentu. Tato definice je však pouze formální na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci.
Jeden dokument (označený XML elementem doc) odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (div; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (p) a věty (s). Každý z těchto elementů začíná otevíracím tagem (např. pro věty <s …>) a je uzavřen tagem uzavíracím (</s>), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element div obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu, všem dosud zmíněným elementům je společný atribut id, identifikátor jednoznačně určující daný element v korpusu.
Dalším elementem je w označující každou jednotlivou pozici vzniklou ↗tokenizací, jeho atributy jsou lemma a morfologická značka jako výsledek (automatické) ↗lemmatizace a ↗tagování. Tyto pozice jsou základní jednotky pro vyhledávání v korpusu odpovídající tokenům: samostatnou pozici v takto označeném textu dokumentu tvoří každý jednotlivý výskyt slovního tvaru, čísla nebo interpunkčního znaménka, které bylo při tokenizaci osamostatněno. Každý w‑element je svým umístěním zařazen do konkrétní věty, odstavce a dokumentu. Elementem i je ohraničena část textu, která byla zapsána kurzívou, a element D označuje místo, kde jednotlivé w‑elementy v původním textu nebyly odděleny mezerou, což umožňuje jeho zpětnou rekonstrukci. Za povšimnutí stojí, že element D je při svém otevření vždy vzápětí uzavřen, což je signalizováno tagem <D/>.
Příklad:
<?xml version='1.0' encoding='utf-8'?> |
<!DOCTYPE doc SYSTEM "http://korpus.cz/intercorp/files/intercorp.dtd"> |
<doc id="Mandelstamova-DveKnihy" language="cs" version="00" wordcount="279826"> |
<div author="Mandělštamová, Naděžda Jakovlevna" title="Dvě knihy vzpomínek" publisher="Atlantis" pubplace="Brno" pubyear="1996" pubmonth="" origyear="" isbn="80-7108-128-0" txtype="próza" comment="" original="NE" srclang="ru" translator="Dušková, Ludmila" transsex="F" authsex="F" transcomment="" collectionauthor="" collectiontitle="" volume="" pages="" id="cs:Mandelstamova-DveKnihy:0" wordcount="279826"> |
<p id="cs:Mandelstamova-DveKnihy:0:1"> |
<s id="cs:Mandelstamova-DveKnihy:0:1:1"> |
<w lemma="Naděžda" tag="NNFS1-----A----">Naděžda</w> |
<w lemma="Mandelštamová" tag="NNFS1-----A----">Mandelštamová</w> |
</s> |
</p> |
<p id="cs:Mandelstamova-DveKnihy:0:2"> |
<s id="cs:Mandelstamova-DveKnihy:0:2:1"> |
<w lemma="dva" tag="ClHP1----------">DVĚ</w> |
<w lemma="kniha" tag="NNFP1-----A----">KNIHY</w> |
<w lemma="vzpomínka" tag="NNFP2-----A----">VZPOMÍNEK</w> |
</s> |
</p> |
<p id="cs:Mandelstamova-DveKnihy:0:3"> |
<s id="cs:Mandelstamova-DveKnihy:0:3:1"> |
<i> |
<w lemma="k" tag="RR--3----------">K</w> |
<w lemma="okenní" tag="AAFS3----1A----">okenní</w> |
<w lemma="tabulka" tag="NNFS3-----A----">tabulce</w> |
<w lemma="přilnout" tag="VpQW---XR-AA---">přilnula</w> |
<w lemma="ženský" tag="AAFS1----1A----">ženská</w> |
<w lemma="tvář" tag="NNFS1-----A----">tvář</w> |
<w lemma="a" tag="J^-------------">a</w> |
<w lemma="po" tag="RR--6----------">po</w> |
<w lemma="sklo" tag="NNNS6-----A----">skle</w> |
<w lemma="začít" tag="VpTP---XR-AA---">začaly</w> |
<w lemma="pomalu" tag="Db-------------">pomalu</w> |
<w lemma="stékat" tag="Vf--------A----">stékat</w> |
<w lemma="slza" tag="NNFP4-----A----">slzy</w> |
<D/> |
<w lemma="," tag="Z:-------------">,</w> |
<w lemma="jako" tag="Db-------------">jako</w> |
<w lemma="kdyby" tag="J,-------------">kdyby</w> |
<w lemma="být" tag="VB-S---3P-AA---">je</w> |
<w lemma="žena" tag="NNFS1-----A----">žena</w> |
<w lemma="mít" tag="VpQW---XR-AA---">měla</w> |
<w lemma="pořád" tag="Db-------------">pořád</w> |
<w lemma="na" tag="RR--6----------">na</w> |
<w lemma="krajíček" tag="NNIS6-----A----">krajíčku</w> |
<D/> |
<w lemma="." tag="Z:-------------">.</w> |
</i> |
</s> |
</p> |
. |
. |
. |
</div> |
</doc> |
- Burnard, L. Metadata for Corpus Work. In Wynne, M. (ed.), Developing Linguistic Corpora – a Guide to Good Practice, 2005 (http://www.ahds.ac.uk/creating/).
- Harold, E. R. & W. S. Means. XML in a Nutshell, 2004.
- TEI Consortium. TEI P5: Guidelines for Electronic Text Encoding and Interchange, 2007 (http://tei-c.org/Guidelines/).
URL: https://www.czechency.org/slovnik/ZNAČKOVACÍ JAZYK (poslední přístup: 23. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka