MLUVENÝ KORPUS | Nový encyklopedický slovník češtiny

MLUVENÝ KORPUS (korpus mluveného jazyka)

▲

►

Základní

↗Korpus soustřeďující se na zachycení mluvy, mluveného jazyka. (Bývají sem řazeny i korpusy, které obsahují nahrávky čteného textu a slouží fonetickému výzkumu.) Zvukový záznam mluvy je v nich přepsán podle určitých transkripčních pravidel. Tento přepis (↗transkript) je zpravidla spojen se zvukovým záznamem. V transkriptu je možné vyhledávat podobně jako v psaných korpusech a speciální korpusový manažer umožňuje poslech zvukového záznamu příslušného vyhledaného úseku. Budování takovýchto korpusů je velmi náročné časově, finančně i technicky. Vzhledem k této náročnosti začaly větší m.k. (okolo milionu přepsaných slovních tvarů) vznikat až koncem 20. stol.

1 Historie budování mluvených korpusů

Budování m.k. vychází z výzkumů mluvy, kterým se věnovali především dialektologové a fonetikové. Pro tento výzkum pořizovali nahrávky, které podle daných pravidel přepisovali; viz ↗transkripce. Zvukové nahrávky a jejich transkripty vznikaly také v rámci ↗konverzační analýzy a ↗analýzy diskurzu se specifickými transkripčními pravidly a softwarovými nástroji; viz ↗transkripce. S budováním jaz. korpusů na konci 20. stol. se přikročilo i ke korpusům zachycujícím mluvené projevy.

Součástí souboru textů (vlastně korpusu), které v 70. letech sloužily jako podklad pro první frekvenční slovník češtiny (✍Jelínek & Bečka ad., 1961), byly i mluvené projevy (srov. např. ✍Těšitelová, 1982:2; ✍Těšitelová, 1983:1). Přepisy mluvených projevů jsou také součástí prvního velkého korpusu angličtiny BNC (viz http://www.natcorp.ox.ac.uk/) v rozsahu 10 milionů slov, což představuje 10 % z celého korpusu, tj. ze 100 mil. slov. Jedná se o přepisy nahrávek různých situací od neformální konverzace přes obchodní schůzky až po rozhlasové pořady.

Jako první m.k. bývá označován London‑Lund Corpus of Spoken English (pochází z projektu Survey of Spoken English, který začal na Lundské univerzitě budovat J. Svartvik v roce 1975). Tento projekt navazoval na projekt Survey of English Usage z roku 1959, který vedl R. Quirk (viz http://ota.ox.ac.uk/). V tomto korpusu jsou zahrnuty různé typy mluvených projevů: monology i dialogy; telefonické rozhovory, spontánní i připravené; veřejné diskuse, část nahrávek zachycuje rozhovory, kdy mluvčí nevěděl, že je nahráván. Korpus je tvořen 100 vzorky po 5 000 slovech. Přepis korpusu byl morfologicky anotován a byly v něm označeny prosodické a paralingvistické jevy.

Také další m.k. v 80. a 90. letech vznikaly jako část velkých korpusů obsahujících především psané texty, např. Cobuild corpus (mluvená část 20 mil. slov), Cambridge International Corpus (mluvená část CANCODE (Cambridge and Nottingham Corpus of Discourse in English)). Kromě angl. začaly vznikat také velké m.k. ostatních jaz. K největším na světě patří např. nizozemský korpus Corpus Gesproken Nederlands z roku 2004, který obsahuje 10 milionů slovních tvarů (viz http://lands.let.ru.nl/cgn/).

2 Druhy mluvených korpusů a způsoby jejich využívání

M.k. jsou budovány za různým účelem a z toho pak vychází způsob pořizování nahrávek, výběr situací, pravidla přepisu i výsledné složení korpusu a jeho rozdělení na úseky při přepisování (tzv. segmentace: např. pro fonetické zkoumání bude důležité, aby bylo možno sledovat výslovnost jednotlivých hlásek; naopak konverzační analýza potřebuje delší úryvky souvislého hovoru se střídáním komunikační aktivity mluvčích, tzv. repliky). Část m.k. zachycuje také jen prostě čtený text. Takovéto korpusy slouží především k fonetickým výzkumům a trénování softwaru pro rozpoznávání mluvené řeči. Tento typ nahrávek (např. zprávy čtené v rozhlase či televizi) má dobrou kvalitu zvuku a snáze i rychle se získává. Nelze ho ale považovat za autentický mluvený jaz. Pro studium mluveného jaz. se využívají také videozáznamy přednášek především z akademického prostředí, které slouží např. ke zkoumání akademického odborného vyjadřování. Korpusy obsahující videozáznamy (multimodální korpusy) z různých televizních pořadů jsou využívány ke zkoumání mediálního diskursu. M.k. pro své výzkumy využívá také konverzační analýza, která se soustředí na různé aspekty rozhovoru. Pro studijní a výukové účely jsou budovány m.k. nerodilých mluvčích, které vznikají zejména pro angl. Výzkumům osvojování jaz. u bilingvních mluvčích slouží korpusy nahrávek dětí pocházejících z bilingvního prostředí. Proces osvojování jaz. pomáhají studovat korpusy dětské mluvy. Na ně navazují projekty zaměřené na mluvu mládeže a studentů, budují se např. korpusy školní komunikace. Existují také korpusy zachycující profesní mluvu. Pro neurolingvistické účely jsou budovány korpusy nahrávek pacientů s poškozením mozku.

Zvláštním typem mluvených korpusů jsou nářeční korpusy, které zachycují stav nářečí na určitém teritoriu. Pokud slouží dialektologickým výzkumům, jsou nahráváni nejstarší mluvčí z tradičních nářečních oblastí, u kterých lze předpokládat, že užívají nářečních prvků ve větší míře. Takové korpusy pak také mohou sloužit k budování interaktivních jaz. atlasů. Multimodiální korpus (někdy také multimediální korpus) obsahuje videozáznamy. Kromě přepisu mluveného projevu a jeho spojení se zvukem je možné pracovat i s obrazovým materiálem. K němu lze přidávat další anotaci, např. popis gest, mimiky apod.

3 Kritéria výstavby mluvených korpusů

Složení m.k. odráží účel jeho vzniku. Podobně jako psané korpusy se obecné m.k. snaží o ↗reprezentativnost a co největší rozmanitost, která může vycházet z různých hledisek (srov. ✍Čermák, 2006): demografického (proporcionalita s ohledem na věk, vzdělání, pohlaví), situačního (např. proporcionalita s ohledem na vzájemný vztah mluvčích, jejich sociální status, soukromost – veřejnost projevu, rozhovor tváří v tvář – telefonický), geografického, časového (sledování konkrétního mluvčího v časových intervalech), diskusního (např. připravenost × nepřipravenost, monolog × dialog, jeden mluvčí vůči mnoha posluchačům), tematického (téma je dáno, např. přednáška; spontánní hovor bez předchozího určení). Se situací při nahrávání souvisí i kvalita nahrávek. Nejlepší nahrávky jsou pochopitelně možné s kvalitními přístroji ve studiovém prostředí. Takové se zpravidla pořizují pro fonetický výzkum, ale nelze je získat pro autentický spontánní rozhovor v soukromí n. ve veřejném prostoru, kde mluvený projev ruší okolní zvuky. Přepis a způsob zpracování a záznamu mluvených dat jsou realizovány podle účelu konkrétního m.k.: od velmi podrobného fonetického či fonologického přepisu, který je vhodný pro menší korpusy, až po ortografický přepis, který se snaží jednoduchým způsobem zachytit větší množství nahrávek a zajistit kompatibilitu při vyhledávání v těchto korpusech společně s psanými korpusy. V současnosti bývá užíván transkript víceúrovňový: jedna úroveň slouží k lepší orientaci a usnadňuje vyhledávání (např. ortografický zápis) a další úrovně tvoří zpravidla různě podrobný fonetický zápis s určitou mírou úprav podle výzkumného účelu. Při transkripci je důležité pomocí tzv. časových značek spojit příslušné úseky zvukové nahrávky s jim odpovídajícím přepisem. K tomu slouží anotační programy, jako např. ELAN (viz https://tla.mpi.nl/tools/), EXMARaLDA (viz http://exmaralda.org/), Transcriber (viz http://trans.sourceforge.net/), software pro fonetický přepis a výzkum Praat (viz http://www.fon.hum.uva.nl/praat/). Tyto nástroje umožňují segmentaci zvuku na úseky, ke kterým je pak připojen odpovídající přepis n. několik úrovní přepisu. Lze v nich provádět i další vnější anotaci, jako např. zachycení důležitých doprovodných informací k situaci při nahrávání (prostředí, témata, vztah mluvčích), k mluvčím (věk, vzdělání, nářeční oblast původu) n. další lingvistická anotace, jako např. morfologická, sémantická apod. Velkým problémem při vlastním přepisu jsou úseky, ve kterých několik mluvčích hovoří současně, tzv. překryvy. U m.k. je třeba zajistit ochranu osobních údajů, které se v nahrávce vyskytnou. Tyto údaje jako např. příjmení jsou anonymizovány (pokud se nejedná o jména veřejně známých osob). V přepise jsou osobní údaje kódovány a ze zvukové stopy odstraněny.

4 Korpusový manažer pro mluvený korpus

V poslední fázi je třeba m.k. zpřístupnit, a to nejen jejich přepis, ale i zvukový záznam. K tomu je nutný ↗korpusový manažer (viz ↗software korpusový a lingvistický), který umožňuje přehrávání zvuku. Takové korpusové manažery někdy bývají přímo doplňkem transkripčních nástrojů (jako např. COMA – Corpus Manager pro transkripční nástroj EXMARaLDA), n. jsou speciálně vytvořeny pro konkrétní m.k. obsahující audio či videonahrávky (např. systém Dialogy pro korpus DIALOG; rozšíření korpusového manažeru KonText pro práci se zvukovými daty ↗ČNK; viz ↗software korpusový a lingvistický). Takovéto korpusové manažery umožňují pomocí přepisu vyhledávat jednotlivé části (segmenty) zvukového záznamu. Uživatel si pak může vybrané segmenty přehrát a zobrazit si k nim příslušný přepis. K přehlednému zobrazení struktury mluveného projevu lze také použít webový nástroj pro vyhledávání v korpusech s různými typy anotace Annis (http://corpus-tools.org/annis/) nebo vizualizační nástroj D. Lukeše Mluvkonk (http://trost.korpus.cz/shiny/lukes/mluvkonk/).

5 České korpusy mluveného jazyka

Následující m.k. jsou přístupny prostřednictvím ↗ČNK (viz Ústav Českého národního korpusu). V jejich přepisech je možné vyhledávat pomocí korpusového manažeru KonText, zvukové záznamy jsou dostupné jen u některých:

(a) Pražský mluvený korpus (PMK) je prvním m.k., zachycuje autentickou mluvu, tematicky nespecializovanou z oblasti Prahy a okolí. Vznikal v letech 1988–1996 pod vedením F. Čermáka a obsahuje 675 000 slov. U mluvčích zachycuje binárně 4 sociolingvistické proměnné: pohlaví (muž – žena), věk (mladší – do 35 let, – starší nad 35 let), vzdělání (nižší (základní a středoškolské) – vyšší (vysokoškolské)) a formálnost či neformálnost promluvy. Nahráváni byli pouze mluvčí žijící trvale na území Prahy a starší 18 let. Způsob přepisu se snaží co nejvěrněji zachytit mluvený jaz., především z hlediska jeho neformálnosti. Je to zatím jediný plně a poloautomaticky anotovaný č. korpus zachycující i frazémy, idiomy a další víceslovné jednotky včetně citátových výrazů cizojazyčných, ale i zkratky; anotace systematicky zachycuje i valenci všech slovních druhů a bohatou sémantickou a funkční povahu všech slovních tvarů, včetně variability typické pro mluvený jazyk.

(b) Brněnský mluvený korpus (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zpřístupňuje nahrávky autentického jaz. z Brna, které byly pořízeny v letech 1994–1999 pod vedením Z. Hladké. Obsahuje 490 000 slov. U mluvčích zachycuje stejné kategorie jako PMK. Jako způsob přepisu byla zvolena účelová kombinace fonetického zápisu a standardních pravopisných norem, na rozdíl od PMK zde byla tradiční interpunkce nahrazena pauzovou.

(c) Korpusy řady ORAL vznikají v Ústavu Českého národního korpusu za koordinace M. Kopřivové, M. Waclawičové a L. Benešové. Usilují o zachycení mluveného jaz. na širším teritoriu České republiky, proto jako další kategorie týkající se mluvčího přibyla nářeční oblast, ze které mluvčí pochází (středočeská, severovýchodočeská, jihozápadočeská, české pohraničí, česko‑moravská, středomoravská, východomoravská, slezská, moravské pohraničí). Tato kategorie významně ovlivňuje jaz. mluvčího, přestože cílem není zachycení dialektu (odlišení nářečních výrazů od obecnějších je obtížné). Zároveň se tyto korpusy snaží udržovat kontinuitu započatou korpusy PMK a BMK. Transkripční pravidla připravil na základě PMK P. Jančák. Nahrávány a přepisovány jsou pouze rozhovory v neformálních situacích.

ORAL2006 zachycuje mluvenou č. z celé oblasti č. nářečí v užším slova smyslu. I zde byly zachovány binární sociolingvistické kategorie pohlaví, věk a vzdělání, přibyla kategorie nářeční oblast původu mluvčího; kromě binárního rozlišení jsou tyto kategorie vyjádřeny i přesněji. Korpus obsahuje 1 milion slov, byl zpřístupněn v roce 2006. ORAL2008 je milionový vyvážený korpus mluvené č. z oblasti Čech. Korpus byl vyvážen podle sociolingvistických kategorií pohlaví, vzdělání, věk a nářeční oblast původu mluvčího. Byl zpřístupněn v roce 2008. Korpus ORAL2013 obsahuje 2.8 mil. přepsaných slovních tvarů z nahrávek od mluvčích z celého území ČR, kteří byli nahráváni v letech 2008–2013. Transkript je spojen se zvukem a užívá pauzovou interpunkci. Vyhledávání i přehrávání zvuku je možné prostřednictvím m.k. KonText od roku 2013. Pro m.k. řady ORAL je plánována lemmatizace a morfologické značkování.

Na korpusy řady ORAL navazuje nový milionový korpus ORTOFN s dvouúrovňovou transkripcí: ortografickou a zjednodušenou fonetickou. Spolu s prvním nářečním korpusem DIALEKT (transkripce dialektologická a ortografická) má být zveřejněn koncem roku 2016.

(d) Speciální Korpus školní komunikace SCHOLA 2010, který vznikal pod vedením K. Šebesty a H. Goláňové, obsahuje 792 764 slov. Tento korpus zaznamenává mluvenou komunikaci během vyučovacích hodin na základních školách, gymnáziích a středních odborných školách. Nahrávky byly pořizovány v letech 2005–2008. Korpus je vyvážen vzhledem ke skupinám vyučovacích předmětů.

(e) Korpus DIALOG (viz http://ujc.dialogy.cz/), který je prvním speciálním multimodálním (multimediálním) korpusem mluvené č., zpřístupňuje nahrávky a přepisy diskusních pořadů č. televizí. Slouží výzkumu mediální komunikace a mluvené č. v její současné veřejné podobě. Skládá se z několika korpusů, které se od sebe liší způsobem morfologické anotace a lemmatizace. Celková velikost korpusu verze 1.2 z roku 2015 je 1 081 483 textových slov. Tento korpus je budován a spravován v ÚJČ AV ČR. Korpus vzniká od roku 1996, první část byla veřejně zpřístupněna v roce 2005. Vznikal pod vedením S. Čmejrkové, L. Jílkové, Z. Svobodové a P. Kaderky. Vyhledávací systém Dialogy.org pro zpřístupnění audiovizuálních nahrávek společně s přepisem vytvořil N. Peterek z ÚFAL MFF UK.

(f) Olomoucký mluvený korpus (OMK) vzniká od roku 2002 pod vedením P. Pořízky na FF UP v Olomouci. Jedná se o korpus zaměřený na městskou olomouckou mluvu, který se zpočátku řídil podobnou metodologií jako PMK a BMK. Jednotlivé kategorie (věk, vzdělání) byly rozpracovány podrobněji a zcela změněna byla přepisovací pravidla. OMK má dvouúrovňovou transkripci: ortografickou a fonetickou. OMK obsahuje asi 1 500 000 slovních tvarů (údaj z roku 2009, ✍Pořízka, 2009) a k r. 2015 nebyl veřejně přístupný.

(g) Pražský závislostní korpus mluvené češtiny (PDTSC) se začal budovat v ÚFAL v roce 2005 jako základní východisko pro významovou analýzu mluvené č. Tato analýza vychází z hloubkové (tzv. tektogramatické) anotace textu, která je zpracována v Pražském závislostním korpusu (↗PDT). PDTSC je tvořen souborem audionahrávek z projektu Malach (svědectví lidí, kteří přežili holocaust). Přepis audionahrávek prochází procesem „rekonstrukce standardizovaného textu z mluvené řeči“ (✍Otradovcová & Mikulová, 2008:6) pomocí speciálních anotačních nástrojů a takto rekonstruovaný text je pak syntakticky analyzován.

▲

►

Rozšiřující

Literatura

Benešová, L. & M. Křen ad. Korpus spontánní mluvené češtiny ORAL2013. In Časopis pro moderní filologii 97 (1), 2015, 42–50 (http://cmf.ff.cuni.cz/).
Čermák, F. Mluvené korpusy. In Čermák, F. & R. Blatná (eds.), Studie z korpusové lingvistiky 1, Korpusová lingvistika, stav a modelové přístupy, 2006, 53–67.
Čermák, F. Spoken Corpora Design: Their Constitutive Parameters. International Journal of Corpus Linguistics 14, 2009, 113–123.
Čmejrková, S. & J. Hoffmannová. Mluvená čeština. Hledání funkčního rozpětí, 2011.
Čmejrková, S. & L. Jílková ad. Mluvená čeština v televizních debatách: korpus DIALOG. SaS 65, 243–269.
Du Bois, J. W. & R. Englebretson. Santa Barbara Corpus of Spoken American English 4. Linguistic Data Consortium, 2005.
Goláňová, H. & K. Matějů. Sociolingvistické aspekty koncepce Korpusu školní komunikace a Korpusu neformální komunikace dětí a mládeže. In Kopřivová, M. & M. Waclawičová (eds.) Čeština v mluveném korpusu. Studie z korpusové lingvistiky, 2008, 83–88.
Goláňová, H. & M. Kopřivová ad. Kartografické a geografické zpracování dat z mluvených korpusů. In Korpus – gramatika – axiologie, 2015, 42–54.
Hladká, Z. ad. Brněnský mluvený korpus (http://ucnk.ff.cuni.cz/bmk.php), 2002.
Jelínek, J. & J. V. Bečka ad. Frekvence slov, slovních druhů a tvarů v českém jazyce, 1961.
Kaderka, P. & M. Havlík ad. Minulost, současnost a budoucnost korpusu DIALOG. In Štícha, F. & M. Fried (eds.), Grammar & Corpora / Gramatika a korpus 2007, 2008, 181–189.
Kopřivová, M. & M. Waclawičová. Construction of Spoken Corpus Based on the Material from the Language Area of Bohemia. In Garabík, R. (ed.), Computer Treatment of Slavic and East European Languages, 2005, 137–140.
Kopřivová, M. & M. Waclawičová. (eds.) Čeština v mluveném korpusu, 2008.
Kopřivová, M. & M. Waclawičová. Representativeness of Spoken Corpora on the Example of the New Spoken Corpora of the Czech Language. In Proceedings of the International Conference “Corpus linguistics – 2006”, 2006, 174–181.
Kopřivová, M. & H. Goláňová ad. Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In Complex Visibles Out There. Proceedings of the Olomouc Linguistics Colloquium 2014: Language Use and Linguistic Structure, Olomouc Modern Language Series 4, 2014, 529–544.
Kopřivová, M. & P. Klimešová. Mapping Diatopic and Diachronic Variation in Spoken Czech: The ORTOFON and DIALEKT Corpora. In Calzolari, N. & K. Choukri ad. (eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), 2014, 376–382.
Lukeš, D. New Tools for Working with the ORAL Series Corpora of Spoken Czech: AchSynku and MluvKonk. In Gajdošová, K. & A. Žáková (eds.), Natural Language Processing, Corpus Linguistics, Lexicography. Eighth International Conference. Proceedings of SLOVKO 2015, 2015.
Lukeš, D. & P. Klimešová ad. Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In Král, P. & V. Matoušek (eds.), TSD 2015, LNAI 9302, 2015, 342–350.
Luzón, M. J. & M. C. Campoy ad. Spoken Corpora: New Perspectives in Oral Language Use and Teaching. In Campoy, M. C. & M. J. Luzón (eds.), Spoken Corpora in Applied Linguistics, 2007, 3–30.
Merkel, S. & T. Schmidt. Korpora gesprochener Sprache im Netz – eine Umschau (http://gespraechsforschung-ozs.de/). Gesprächsforschung. Online-Zeitschrift zur verbalen Interaktion 10, 2009, 70–93.
NČD, 1972.
Otradovcová, M. & M. Mikulová. Zpracování dat mluvené řeči v Pražském závislostním korpusu mluvené češtiny. In Doležalová, N. & D. Dvořáková ad. (eds.), Setkání bohemistů Cikháj 2006, 2008, 5–8.
Pořízka, P. Transkripce a sběr dat v korpusech mluvené češtiny. PhD. dis., FF UP, Olomouc, 2009.
Pořízka, P. Olomoucký mluvený korpus – stav, metodologie, charakteristika. In Štícha, F. & M. Fried (eds.), Grammar and Corpora / Gramatika a korpus 2007, 2008, 191–198.
Pořízka, P. Anotace orálních korpusů. Olomoucký mluvený korpus jako model. In Kopřivová, M. & M. Waclawičová (eds.), Čeština v mluveném korpusu, 2008, 177–189.
Pořízka, P. Olomouc Corpus of Spoken Czech: Characterization and Main Features of the Project. Linguistik online 38, 2009.
Svartvik, J. (ed.) The London-Lund Corpus of Spoken English: Description and Research. Lund Studies in English 82, 1990.
Leech, G. Grammars of Spoken English: New Outcomes of Corpus-Oriented Research, 2000.
Těšitelová, M. Kvantitativní charakteristiky současné české publicistiky, 1982.
Těšitelová, M. Psaná a mluvená odborná čeština z kvantitativního hlediska, 1983.
Waclawičová, M. & M. Křen. ORAL2008: New Balanced Corpus of Spoken Czech. Trudy meždunarodnoj konferencii „Korpusnaja lingvistika – 2008“, 2008, 105–112.

Citace

Marie Kopřivová (2017): MLUVENÝ KORPUS. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/MLUVENÝ KORPUS (poslední přístup: 26. 3. 2026)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

MLUVENÝ KORPUS (korpus mluveného jazyka)

Další pojmy: