ELEKTRONICKÝ TEXT
Počítačově čitelný a zpracovaný, resp. dále zpracovávatelný libovolný souvislý psaný n. mluvený text. Míra a způsob takového zpracování závisí na cíli, technických podmínkách a potřebách. Od textu psaného, resp. tištěného, se především liší mírou a způsobem takového zpracování. Typy textů se často označují příponou (např. .doc pro texty Wordu, n. .pdf (portable document format) pro texty široce přenosné, určené zvláště pro tisk, s plnou informací o jeho charakteristikách), známé z běžné práce s texty a s jejich výstupními, koncovými formáty. E.t., které dnes vstupují do korpusu, se však konverzí (↗korpus a jeho příprava) z takových (mnoha a různých) formátů, vytvořených obvykle v některém z textových procesorů (ale i ve webovém prostředí, zvl. .html (Hypertext Markup Language)), často převádějí do prostého kódu ASCII (pův. American Standard Code for Information Interchange), v praxi obvykle označovaného příponou .txt (prostý text) a tvoří tak základ pro další (pre)korpusové zpracování (↗kódování).
Korpusový text, získaný různými konverzemi z textů z textových procesorů, je optimálně text autentický, mající tu podobu, kterou mu dal autor, resp. vydavatel, a je tedy nepředstavitelné, že by se měl opravovat, pospisovňovat či jinak pravopisně, n. dokonce cenzorně, a tedy krajně sporně „vylepšovat“. Předpokládá se tedy, že zachovává i různé individuální překlepy a omyly autora (pro masové korpusové hledání to nijak nevadí, všechny takové, v tradičním pohledu „spisovníků“, nenáležitosti jsou řídké, ojedinělé a neovlivňují zásadně celkový výsledek hledání v korpusu; viz ↗korpus a jeho příprava). Jiného rázu jsou chyby textu vzniklé technickým zpracováním či sazbou textu, které je naopak třeba řadou procedur opravit, jakkoliv rozlišení obou typů nebývá snadné. Protože zásadním modem korpusových dat je text psaný, spadají sem nutně i textové, resp. elektronické přepisy mluvených textů (viz ↗mluvený korpus). Ty se můžou dodatečně ještě vybavovat i fonetickým či prozodickým přepisem. Proti dřívější koncepci budovat korpus z homogenních (náhodných) vzorků textů se dnes dává vzhledem mj. i k dostupnosti textů přednost do korpusu začleňovat texty celé, které umožňují optimální zkoumání kontextu, stejně tak ale i povahu odlišných částí téhož textu (při textové analýze).
E.t. je podle možností různě podrobně anotován (↗anotace) z hlediska jeho vnějších, externích bibliografických charakteristik (název, autor, vydavatel aj.), které jsou uloženy externě ve zvláštní databázi; tato ↗metadata lze však ukládat i dovnitř textu. Interně, pro počítačové zpracování, se text zpravidla napřed segmentuje, tj. automaticky rozkládá na menší části, zpravidla slova, a ty se každá označkují, stejně tak jako další charakteristiky textu, často podle mezinárodních zásad (TEI (Text Encoding Initiative)), a v rámci standardního značkovacího jazyka (SGML a XML); viz ↗značkovací jazyky. Do e.t. se takto vnášené značky jako specifický metajazyk, který je třeba odlišit od vlastního korpusového textu, označují zpravidla špičatými závorkami < > (užívají se v typu kódování známém jako COCOA).
E.t. se však také vybavuje dalšími vnášenými jazykovými značkami, které označují morfologickou platnost, popř. ↗lemma k danému ↗tokenu, exempláře výskytu slova, někdy se tu objevují i poukazy na syntaktické funkce. Všechny jsou však už odrazem určité vnesené gramatické teorie a nejsou nutně jediné možné, někdy jsou i víceznačné a problematické. V tomto smyslu jsou také subjektivní, stejně jako všechny gramatické teorie, zvláště syntaktické. Podle daného typu takto zvnějšku vneseného značkování se e.t. různě liší. Občas se však objevuje nechuť uživatelů k vnitřní, jaz. anotaci, protože každá anotace vycházející z konkrétní teorie se vždy dá chápat jako deformace jaz. reality. Proto se pak někdy dává přednost prostým textům bez anotace. E.t. se v rámci bibliografického zpracování také zařazuje pod některý z textových žánrů, popř. podžánrů, domén ap., kterým se pro jejich větší objektivnost v ↗korpusové lingvistice dává přednost před často sporným stylistickým označením. Protože většina korpusů je veřejných, získávání e.t. bývá spojeno s nemalými problémy autorských práv, copyrightu, který je vázán na různé agentury udělující souhlas k jejich využití na základě zvláštních smluv; někdy je dokonce i zpoplatněno.
- Viz Korpus.
URL: https://www.czechency.org/slovnik/ELEKTRONICKÝ TEXT (poslední přístup: 21. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka