ROZPOZNÁVÁNÍ ŘEČI
Převod mluvené řeči na psaný text a obor zabývající se tím. Systémy rozpoznávání řeči se využívají zejména pro hlasové ovládání počítače či jiných zařízení, automatický diktát a v poslední době, v souvislosti s dramatickým nárůstem objemu archivovaných audio(vizuálních) záznamů, také velmi často k automatickému vyhledávání informací ve velkých souborech mluvených dat (v poslední jmenované úloze dochází k překryvu s oborem ↗extrakce dat z textu).
V počátcích výzkumu v oblasti r.ř. se využívaly metody srovnávání se vzorem (např. s pomocí algoritmu DTW – viz ✍Sakoe & Chiba, 1978), od 70. let 20. stol. však zcela převládly tzv. statistické metody rozpoznávání řeči popsané ✍Jelinkem (1997).
Systém využívající statistický přístup r.ř. lze rozdělit na čtyři relativně samostatné bloky. Prvním z nich je tzv. modul parametrizace (též extrakce příznaků), jehož úkolem je extrahovat ze vstupního řečového signálu takové příznaky, které co nejlépe zachovávají informaci o obsahu promluvy a zároveň účinně odstraňují značnou informační redundanci v řeči obsaženou. K tomuto účelu se v současné době využívají téměř výhradně metody založené na modelování procesu vnímání řeči člověkem – perceptuální lineární predikce (PLP) představená ✍Heřmanským (1990)n. metoda mel-frekvenčních kepstrálních koeficientů (MFCC) (viz např. ✍Davis & Mermelstein, 1980). Další z bloků, tzv. akustický model, má za cíl statisticky modelovat vztah mezi jednotlivými základními řečovými jednotkami (nejčastěji fonémy) a jejich akustickou reprezentací. Akustické modely jsou převážně založeny na principu skrytých Markovových modelů (hidden Markov models // HMM ‒ detailní informace přehledně shrnuje ✍Rabiner, 1989) a v poslední době také na umělých neuronových sítích (ANN ‒ viz např. ✍Dahl & Yu ad., 2012). Úkolem jazykového modelu je co nejpřesněji přiřadit pravděpodobnosti jednotlivým posloupnostem slov a tím pomoci akustickému modelu ve správném rozlišení mezi akusticky podobnými hypotézami o vyřčené promluvě (zde se r.ř. překrývá pro změnu s oborem ↗počítačové zpracování přirozeného jazyka, neboť téměř n. zcela identické jaz. modely využívá např. i ↗strojový překlad). Pro jazykové modelování se již několik desetiletí využívají tzv. ↗n-gramy, které přes svoji jednoduchost (v zásadě operují pouze s relativní četností za sebou jdoucích slovních n‑tic) vykazují stále velmi dobré výsledky; až nedávno byly překonány přístupem popsaným ✍Mikolovem (2012) a založeným opět na neuronových sítích. Posledním modulem je pak vlastní rozpoznávací algoritmus (dekodér), který dokáže efektivně, nejlépe v reálném čase, vyhodnotit nejlepší z možných hypotéz.
Parametry akustického a jazykového modelu se nastavují pomocí trénovacích algoritmů, které pro své korektní fungování vyžadují velké množství trénovacích dat – v případě akustického modelu jde o nahrávky segmentované přibližně na úrovni vět a doplněné odpovídajícím slovním přepisem (řečový korpus), pro natrénování jazykového modelu stačí pouze velký soubor textů (textový korpus).
Kritériem úspěšnosti r.ř. je nejčastěji míra zvaná word error rate (WER), která zachycuje procentuální podíl nesprávně vložených, vynechaných a zaměněných slov ve výstupu rozpoznávače.
Během desetiletí intenzivního výzkumu se r.ř. přesunulo od systémů rozpoznávání izolovaných slov, které byly schopny s dostatečnou přesností rozpoznat pouze jednotky, maximálně desítky různých slov (a to často pouze od jednoho konkrétního řečníka), k systémům rozpoznávání souvislé řeči operujícím se slovníky o velikosti stovek tisíc slov, které může používat řečník libovolný. Nicméně ani ty nejlepší současné systémy r.ř. stále nedosahují kvalit člověka – problémem zůstává zejména velká citlivost na změnu problémové domény (např. lékařství × právo × obecné zpravodajství) a na zhoršení akustických podmínek (šum na pozadí, nestandardní přízvuk mluvčího). Hlavním cílem výzkumníků v oboru r.ř. je tedy zvýšení robustnosti. – Detailní rozbor technik r.ř. lze nalézt např. v práci ✍Psutky & Müllera ad. (2006).
- Dahl, G. E. & D. Yu ad. Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing 20, 2012, 30–42.
- Davis, S. B. & P. Mermelstein. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing 28, 1980, 357–366.
- Heřmanský, H. Perceptual Linear Predictive (PLP) Analysis of Speech. The Journal of the Acoustical Society of America 87, 1990, 1738–1752.
- Jelinek, F. Statistical Methods for Speech Recognition, 1997.
- Mikolov, T. Statistical Language Models Based on Neural Networks. PhD. dis., VUT, Brno, 2012.
- Psutka, J. & L. Müller ad. Mluvíme s počítačem česky, 2006.
- Rabiner, L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Proceedings of the IEEE 77, 1989, 257–286.
- Sakoe, H. & S. Chiba. Dynamic Programming Algorithm Optimization for Spoken Word Recognition. IEEE Transactions on Acoustics, Speech and Signal Processing 26, 1978, 43–49.
URL: https://www.czechency.org/slovnik/ROZPOZNÁVÁNÍ ŘEČI (poslední přístup: 21. 11. 2024)
Další pojmy:
komputační lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka