FONOLOGICKÝ KORPUS ČEŠTINY
Fonologicky transkribovaná databáze současné č. mající dvě hlavní části: fonologický lexikální korpus (č. slovní zásoba) a fonologický textový korpus (výběr č. textů různých stylů). Korpus vznikl v roce 2013 jako součást grantu Problémy ve fonologii slova v češtině uděleného Grantovou agenturou ČR a řešeného v Ústavu pro jazyk český Akademie věd ČR, na jehož webových stránkách je korpus uložen (viz http://www.ujc.cas.cz/phword/).
Fonologický lexikální korpus češtiny se skládá z více než 276 000 lexikálních položek (↗lexémů) získaných z Databáze heslářů, jež obsahuje slovní zásobu zaznamenanou v hlavních ↗výkladových slovnících současné č. (Slovník spisovné češtiny, Slovník spisovného jazyka českého, Příruční slovník jazyka českého) včetně slovníků neologismů (Nová slova v češtině. Slovník neologizmů 1, 2) a slovníku cizích slov (Akademický slovník cizích slov A-Ž). Data jsou uložena v textových souborech jako tabulky. Každé položce je přiřazena fonologická ↗transkripce, tj. fonologická interpretace její předpokládané výslovnosti podle pravidel výslovnosti spisovné č. (srov. ↗ortoepie). Fonologická analýza vychází z teorie funkční fonologie popsané a na č. aplikované ✍Bičanem (2013), viz ↗axiomatický funkcionalismus. Transkripce zohledňuje jak segmentální, tak suprasegmentální fonologické vlastnosti. Lexémy jsou primárně přepsány jako posloupnosti fonémů, ale v transkripci je také naznačeno, jak jsou fonologické formy lexémů slabikovány (děleny na fonologické slabiky, resp. fonotagmata, viz ↗fonotaktika a ↗slabikování), kde leží hranice ortografických slov a fonologických slov (tam, kde se ortograficky/gramaticky definované slovo neshoduje se slovem fonologicky definovaným, viz ↗fonologické slovo), popř. hranice ↗přízvukových taktů. Každé položce je dále přiřazena alofonická (fonetická) transkripce, jež zohledňuje způsob, jakým jsou fonémy realizovány pomocí svých alofonů (např. foném /n/ alofonem [n] ve slově brána a alofonem [ŋ] ve slově branka). Z fonologické transkripce je odvozena fonologická anotace zachycující různé fonologické vlastnosti slov, především počet fonémů n. slabik a informace o distinktivních rysech fonémů (viz ↗fonématika). To umožňuje korpus třídit a vyhledávat v něm, např. slova, která se skládají ze tří slabik, obsahují dlouhý vokál a zároveň velární konsonant, ale neobsahují vokál přední. Součástí každého hesla je dále CV vzorec, např. pro slovo kostka CVCCCV, kde V označuje nukleární (slabičný) foném a C nenukleární (neslabičný) foném. Kromě fonologických vlastností každé heslo obsahuje i informaci o slovním druhu příslušného lexému a informaci o jeho výskytu ve výkladových slovnících. Lze tak vyčlenit a následně statisticky vyhodnocovat pouze lexémy uvedené v určitém slovníku, např. slova cizího původu.
Doplňkem hlavního lexikálního korpusu je několik menších lexikálních korpusů, jako je seznam názvů rostlin a živočichů, seznam nejčastějších mužských a ženských křestních jmen a jejich domáckých tvarů a seznam názvů č. obcí a jejich částí (srov. ✍Bičan, 2015a). Jsou transkribovány a anotovány obdobným způsobem.
Fonologický textový korpus češtiny je průběžně rozšiřovaným výběrem fonologicky transkribovaných textů různých stylů. Data jsou uložena v textových souborech ve formátu xml (Extensible Markup Language). Kromě pravopisného záznamu soubory obsahují i fonologickou a alofonickou transkripci, jež opět zohledňuje jak segmentální, tak suprasegmentální úroveň popisu, především prozodickou organizaci textu (viz ↗para-fonotaktika, ↗prozodické jednotky v popisu češtiny). Jsou v ní naznačeny hranice (fonologických) slabik, ortografických a fonologických slov a dále hranice přízvukových taktů, promluvových úseků a vět. Jelikož zvolené texty jsou primárně psané, pro členění slov do přízvukových taktů a promluvových úseků byla zvolena pravidla navržená pro automatickou syntézu řeči (✍Palková, 2004). Členění tedy neodráží skutečnou prozodickou realizaci, ale idealizovaný a neutrální způsob organizace č. textů.
Jak lexikální, tak textový korpus v celém rozsahu n. pouze jejich části je možno statisticky vyhodnocovat. Lze tím získat přesné informace o frekvenci fonémů n. jejich alofonů (hlásek), frekvenci tříd fonémů, různých kombinací fonémů (např. konsonantických kombinací na začátku, uprostřed n. na konci slova), frekvenci slabik a slabičných typů, popř. frekvenci fonologických slov n. přízvukových taktů a jejich typů. Kromě toho data z f.k.č. nabízejí informace o celkové struktuře č. slov z fonologického hlediska. Ukazuje se například, že počet dlouhých vokálů je v č. slovech omezen a nepřesahuje počet čtyř (viz ✍Bičan, 2015b) n. že neohebné slovní druhy mají jednodušší slabičnou strukturu (✍Bičan, 2015c).
K analýzám založeným na f.k.č. viz ↗fonématika, ↗fonotaktika, ↗slabikování, ↗fonologické slovo a ↗sandhi.
- Bičan, A. Phonotactics of Czech, 2013.
- Bičan, A. Kvantitativní fonotaktická analýza názvů českých obcí a jejich částí. SaS 76, 2015a, 243–264.
- Bičan, A. Distribution of Vocalic Quantity in Czech. Grazer Linguistische Studien 83, 2015b, 133–138.
- Bičan, A. Kvantitativní analýza slabiky v českém lexikonu. Linguistica Brunensia 63/2, 2015c, 87–108.
- Databáze heslářů (http://lexiko.ujc.cas.cz/heslare/).
- Fonologický korpus češtiny (http://www.ujc.cas.cz/phword/).
- Palková, Z. The Set of Phonetic Rules as a Basis for the Prosodic Component of an Autonomous TTS Synthesis in Czech. Phonetica Pragensia 10, 2004, 33–46.
URL: https://www.czechency.org/slovnik/FONOLOGICKÝ KORPUS ČEŠTINY (poslední přístup: 21. 11. 2024)
CzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka