KORPUS A JEHO PŘÍPRAVA

Autor: Michal Křen

▲

►

Základní

Přípravné kroky před zpřístupněním jazykového ↗korpusu. Jejich konkrétní náplň se liší zejména podle ↗typu korpusu, obecně však lze vyčlenit následujících 6 fází, z nichž ne všechny jsou nezbytné (srov. ✍Wynne, 2005; pro ↗ČNK srov. ✍Kocek & Kopřivová ad., 2000:19–34, n. nověji ✍Křen, 2012:34–43):

1. Akvizice, vlastní získání textu. Není‑li text již v elektronické podobě, patří sem i skenování včetně případných korektur; v případě ↗mluvených korpusů jde o pořízení nahrávky. Součástí akvizice bývá také získání souhlasu s použitím textu či nahrávky pro jazykovědné účely. V případě ↗webových korpusů (viz např. ✍Baroni & Kilgarriff ad., 2006; ✍Baroni & Bernardini ad., 2009; ✍Spoustová & Spousta, 2012) jde o automatické stažení (crawl) webových stránek s texty; jejich výběr je zpravidla určen seznamem relevantních adres (URL) n. klíčových slov.

2. Konverze, převod do potřebného formátu spojený většinou s čištěním. Cílem konverze je především standardizace, sjednocení nejrůznějších vstupních formátů do jediného, kterým je zpravidla ↗XML (viz také ↗značkovací jazyky). Součástí konverze je zmíněné čištění, tj. odstranění částí netextového charakteru (obrázků, grafů atd.), poté většinou následuje řada dalších (polo)automatických čistících procedur: detekce a odstraňování duplicit, částí textu psaných cizím jaz. n. takových, které obsahují velké množství čísel, tabulek, seznamů apod.; obecně jde o části textu, jejichž přítomnost v korpusu by byla spíše kontraproduktivní. Jejich součástí mohou být také opravy některých chyb způsobených sazbou (dělení slov) n. nevhodným technickým zpracováním, které nebyly záměrem autora. V případě mluvených korpusů lze za konverzi považovat přepis nahrávky; pro zajištění kvality přepisu je žádoucí, aby prošel několika nezávislými kontrolami.

Je tedy vidět, že ačkoli by korpus měl v ideálním případě původní texty přebírat v nezměněné podobě, je často z praktických důvodů žádoucí přistoupit k jejich úpravám. Ty jsou zvlášť důležité v případě webových korpusů; u nich však bývají čistící procedury použity jednotným způsobem na celý materiál, takže nemají přesnost cílených procedur používaných při přípravě korpusů tradičních, kdy je možné volit různé metody i jejich parametrizaci v závislosti na zdroji dat (✍Křen, 2009).

3. Vnější anotace, přidání informací o textech a autorech (mluvčích) ve formě ↗metadat (bibliografických, sociolingvistických aj.). Vnější anotace bývá nedostatečná u webových korpusů, uváděno je zpravidla pouze URL.

4. Vnitřní anotace, přidání lingvistické interpretace ke slovním tvarům v textu. Vnitřní anotace představuje dodatečnou informaci, která nijak nemění původní text, a přitom rozšiřuje možnosti využití korpusových dat. Jde zejména o ↗lemmatizaci, ↗tag (morfosyntaktické značkování), a případně také ↗parsing; u ↗paralelních korpusů je nezbytné zarovnání celků (zpravidla vět), které si v jednotlivých jaz. odpovídají.

5. Selekce, výběr textů do korpusu. Dochází k ní u reprezentativních a vyvážených korpusů (viz ↗reprezentativnost korpusu), kdy je potřeba dodržet celkové zastoupení jednotlivých variet. Provádí se buď na závěr jako výběr z celého shromážděného materiálu, n. průběžně již při jeho získávání; to je žádoucí, zejména je‑li korpus sestavován z obtížně dostupných, cenných dat (✍Křen & Waclawičová, 2011).

6. Indexace, technický převod textů do zaindexované podoby. Jde o formát vytvářený většinou korpusových manažerů (↗korpusový a lingvistický software), nezbytný pro rychlé vyhledávání ve velkých souborech dat.

▲

►

Rozšiřující

Literatura

Baroni, M. & A. Kilgarriff ad. WebBootCaT: A Web Tool for Instant Corpora. In Corino, E. & C. Marello ad. (eds.), Proceedings of the 12th EURALEX International Congress, 2006, 123–131.
Baroni, M. & S. Bernardini ad. The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web‑Crawled Corpora. Journal of Language Resources and Evaluation 43, 2009, 209–226.
Kocek, J. & M. Kopřivová ad. Český národní korpus – Úvod a příručka uživatele, 2000.
Křen, M. The SYN Concept: Towards One‑Billion Corpus of Czech. In Mahlberg, M. & V. Gonzáles‑Díaz ad. (eds.), Proceedings of the Corpus Linguistics Conference (http://ucrel.lancs.ac.uk/publications/), 2009.
Křen, M. Diachronní srovnání synchronních korpusů. PhD. dis., FF UK, Praha, 2012.
Křen, M. & M. Waclawičová. Database Framework for a Distributed Spoken Data Collection Project. In Goźdź‑Roszkowski, S. (ed.), Explorations across Languages and Corpora, 2011, 83–93.
Spoustová, J. & M. Spousta. A High‑Quality Web Corpus of Czech. In Calzolari, N. & K. Choukri ad. (eds.), Proceedings of the 8th LREC International Conference, 2012, 311–315.
Wynne, M. (ed.) Developing Linguistic Corpora – a Guide to Good Practice (http://ota.ox.ac.uk/documents/), 2005.

Citace

Michal Křen (2017): KORPUS A JEHO PŘÍPRAVA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KORPUS A JEHO PŘÍPRAVA (poslední přístup: 2. 4. 2025)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

KORPUS A JEHO PŘÍPRAVA

Další pojmy: