RACIONALISTICKÉ METODY ZPRACOVÁNÍ JAZYKA

▲

►

Základní

▲

►

Rozšiřující

Zpracování přirozeného jazyka lze zhruba rozdělit do dvou skupin metod: (a) empirické metody zpracování jazyka, založené přímo na jazykových datech a tzv. ↗strojovém učení (sem patří hlavně metody statistické/stochastické/pravděpodobnostní); (b) metody racionalistické/symbolické, založené na pravidlech, principech a strukturách a vytvářené zvl. lingvistickou introspekcí. Metody typu (b) popisují jazyk z hlediska jeho struktury a tento popis má obvykle podobu pravidel a/nebo obecných či specifických principů odrážejících strukturu přirozených jazyků. Využívají přitom ↗formálních gramatik a automatů (v rámci teorie formálních gramatik a automatů), algebry, teorie množin a dalších nestatistických a nekvantitativních matematických disciplín. Příkladem racionalistického přístupu je např. ↗parsing pomocí pravidel (na rozdíl od parsingu stochastického), n. ↗morfologická disambiguace, ↗disambiguace lexikálních významů či ↗strojový překladad.; dále konstrukce formální gramatiky pro syntaktickou analýzu/syntézu jazyka, morfologická analýza dvouúrovňového či jiného typu, tvorba tzv. ↗word-sketches, konstrukce konečných či zásobníkových automatů pro zpracování morfologie či syntaxe jazyka apod. Pravidla se přitom mohou buď vyvozovat (automaticky n. neautomaticky) z dat, n. se mohou vytvářet na základě lingvistovy introspekce. Často se výhody racionalistických metod spojují s výhodami metod empirických v metody hybridní: např. pro morfologické značkování ↗jazykových korpusů v rámci ↗Českého národního korpusu se užívá morfologické analýzy založené na pravidlech a spolupráce morfologické disambiguace založené na pravidlech s ↗disambiguací stochastickou; i např. konstrukci pravděpodobnostních regulárních či bezkontextových gramatik lze považovat za metodu hybridní. Poté, co začala být k dispozici velká jazyková data (zvl. na internetu a v jazykových korpusech), metody racionalistické poněkud ustoupily do pozadí ve prospěch metod ↗strojového učení (statistických), nicméně často se právě hybridní metody ukazují jako nejlepší řešení: pravidla a introspekce nemohou postihnout celé lexikální i strukturní bohatství přirozených jazyků, nýbrž pouze jejich základ, takže na pomoc jim přicházejí statistické metody, které jsou sice ze své povahy nepřesné, zato s velmi dobrou aproximací postihnou obrovské množství a rozmanitost jazykových dat.

Literatura

Brill, E. A Simple Rule-Based Part-of-Speech Tagger. In Proceedings of the Third Conference on Applied Natural Language Processing, 1992, 152–155.
Garside, R. & G. Leech ad. (eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
Hajič, J. & P. Krbec ad. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001), 2001, 260–267.
Chanod, J. P. & P. Tapanainen. Tagging French – Comparing a Statistical and a Constraint-based Method. In Proceedings of EACL-95, 1995, 149–156.
Karlsson, F. & A. Voitilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
Květoň, P. Rule-Based Morphological Disambiguation (Towards a Combination of Linguistic and Stochastic Methods). PhD. diss., MFF UK, Praha, 2006.
Květoň, P. & K. Oliva. Achieving an Almost Correct PoS-Tagged Corpus. Text, Speech and Dialogue. In Proceedings of the Fifth International Conference, LNAI 2448, 2002, 19–26.
Leech, G. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
Oliva, K. Úvahy nad teoretickými základy lingvisticky adekvátní disambiguace jazykových korpusů. In Blatná, R. & V. Petkevič (eds.), Jazyky a jazykověda, 2005, 229–245.
Oliva, K. & M. Hnátková ad. The Linguistic Basis of a Rule-Based Tagger of Czech. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Conference Text, Speech and Dialogue 2000, Lecture Notes in Artificial Intelligence 1902, 2000, 3–8.
Petkevič, V. Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
Samuelsson, Ch. & A. Voutilainen. Comparing a Linguistic and a Stochastic Tagger. In Proceedings of 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, ACL, 1997, 246–253.
Tapanainen, P. & A. Voutilainen. Tagging Accurately – Don’t Guess if You Know. Technical Report, Xerox Corp., 1994.
Voutilainen, A. Morphological Disambiguation. In Karlsson, F. ad. (eds.), Constraint Grammar, 1995, 165–285.
Viz také Formální gramatika, Komputační lingvistika, Bezprostředněsložkový strom.

Citace

Vladimír Petkevič (2017): RACIONALISTICKÉ METODY ZPRACOVÁNÍ JAZYKA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/RACIONALISTICKÉ METODY ZPRACOVÁNÍ JAZYKA (poslední přístup: 2. 4. 2025)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

RACIONALISTICKÉ METODY ZPRACOVÁNÍ JAZYKA

Další pojmy: