ASOCIAČNÍ MÍRA (kolokační míra, association measure)
Matematické postupy (vzorce) používané pro detekci ↗kolokací v ↗korpusu. Velká většina a.m. je omezena pouze na dvoučlenné kolokace. A.m. mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované a.m., včetně čistě empirických bez vztahu ke statistické významnosti. A.m. typicky pracují s frekvencí celé kolokace, jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Ta pro danou dvojici slov (obecně n‑tici, resp. ↗n‑gram) v korpusu vyjadřuje míru asociace mezi nimi, která může být u některých a.m. i záporná, což ukazuje negativní asociaci, tj. vzájemné „odpuzování“. Číselné hodnoty jedné a.m. obecně nejsou srovnatelné s hodnotami jiné a.m., pro srovnávání se však číselné hodnoty běžně převádějí na pořadí (rank) v seznamu kolokací uspořádaného podle číselných hodnot dané a.m. Pro daný korpus tak lze získat seznam nejtypičtějších kolokací uspořádaný podle konkrétní a.m. Kolokační moduly v korpusovém softwaru (↗korpusový a lingvistický software) zpravidla umožňují uživatelům tvořit a zobrazovat seznamy nejvýznamnějších kolokací (slovních tvarů n. ↗lemmat) k vyhledanému slovu (výrazu) podle výsledné hodnoty zvolené a.m.
V současné době jsou známé desítky a.m., mezi nejpoužívanější patří logDice, log‑likelihood, MI‑score, MI3, T‑score aj. (✍Evert, 2005). Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé a.m. mohou navzájem výrazně lišit druhem kolokací, které označují za významné (pro č. viz ✍Křen, 2006). Podstatný rozdíl je např. mezi MI‑score a T‑score: zatímco MI‑score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T‑score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné (viz příklad níže). Protože nelze určit, která a.m. je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální a.m., používají se v praxi také jejich kombinace (✍Pecina, 2009). Výběr vhodné a.m. by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi‑score je citlivá na minimální frekvenci celé kolokace).
Příklad demonstrující rozdíl mezi MI‑score a T‑score: první tabulka ukazuje 25 nejvýznamnějších kolokátů (lemmat) v pravém okolí (max. 3 pozice od základového slova) lemmatu nechat v korpusu SYN2010 setříděných podle hodnoty MI‑score:
Lemma | Frekvence | T‑score | MI‑score | Rel. frekvence (v %) | |
1. | okapat | 171 | 13.071 | 11.092 | 91.444 |
2. | zkynout | 10 | 3.161 | 11.083 | 90.909 |
3. | odkapat | 33 | 5.741 | 10.680 | 68.750 |
4. | uležet | 89 | 9.427 | 10.487 | 60.135 |
5. | odstát | 28 | 5.288 | 10.443 | 58.333 |
6. | zkaramelizovat | 11 | 3.314 | 10.432 | 57.895 |
7. | holička | 131 | 11.437 | 10.396 | 56.466 |
8. | štych | 43 | 6.553 | 10.380 | 55.844 |
9. | zesklovatět | 35 | 5.912 | 10.350 | 54.688 |
10. | odležet | 83 | 9.103 | 10.338 | 54.248 |
11. | vykynout | 42 | 6.475 | 10.238 | 50.602 |
12. | vychladit | 71 | 8.419 | 10.190 | 48.966 |
13. | louhovat | 51 | 7.135 | 10.165 | 48.113 |
14. | vychladnout | 286 | 16.896 | 10.135 | 47.117 |
15. | zahoustnout | 3 | 1.730 | 9.998 | 42.857 |
16. | zchladnout | 50 | 7.064 | 9.910 | 40.323 |
17. | naklíčit | 4 | 1.998 | 9.899 | 40.000 |
18. | nabobtnat | 49 | 6.993 | 9.881 | 39.516 |
19. | vytetovat | 23 | 4.790 | 9.790 | 37.097 |
20. | zaprotokolovat | 12 | 3.460 | 9.718 | 35.294 |
21. | macerovat | 7 | 2.643 | 9.706 | 35.000 |
22. | okovat | 7 | 2.643 | 9.706 | 35.000 |
23. | ujít | 834 | 28.843 | 9.657 | 33.834 |
24. | proschnout | 14 | 3.737 | 9.636 | 33.333 |
25. | odmočit | 3 | 1.730 | 9.636 | 33.333 |
Ve většině případů jde o infinitivy z kuchařek a podobných příruček, dále jsou vidět části ↗frazémů nechat na holičkách, nechat ve štychu a nechat si (něco) ujít. Sloupec s relativní frekvencí udává poměr počtu výskytů daného kolokátu v okolí základového slova k počtu jeho výskytů v celém korpusu (např. v takto definovaném pravém okolí lemmatu nechat najdeme 4 výskyty lemmatu naklíčit, což je celkem 40 % všech výskytů lemmatu naklíčit v korpusu SYN2010). Z definice MI‑score zároveň vyplývá, že pořadí (rank) kolokátů podle MI‑score přesně odpovídá jejich pořadí podle relativní frekvence. Protože se relativní frekvence pohybují v řádech desítek procent, jde o kolokace silné, i když většinou nepříliš frekventované.
Naproti tomu diametrálně odlišná je tabulka kolokátů vytvořená za stejných podmínek, avšak setříděná podle hodnoty T‑score:
Lemma | Frekvence | T‑score | MI‑score | Rel. frekvence (v %) | |
1. | se | 7454 | 71,610 | 2,552 | 0,246 |
2. | na | 4866 | 58,731 | 2,662 | 0,265 |
3. | on | 3028 | 47,964 | 2,962 | 0,326 |
4. | ten | 3248 | 44,277 | 2,164 | 0,188 |
5. | v | 3146 | 38,553 | 1,677 | 0,134 |
6. | já | 1674 | 35,969 | 3,049 | 0,347 |
7. | a | 3237 | 33,946 | 1,310 | 0,104 |
8. | svůj | 1258 | 30,682 | 2,889 | 0,311 |
9. | oni | 1162 | 29,984 | 3,054 | 0,348 |
10. | ujít | 834 | 28,843 | 9,657 | 33,834 |
11. | slyšet | 738 | 26,633 | 5,671 | 2,136 |
12. | být | 3120 | 25,769 | 0,893 | 0,078 |
13. | pokoj | 667 | 25,442 | 6,070 | 2,815 |
14. | do | 1078 | 24,131 | 1,916 | 0,158 |
15. | aby | 775 | 23,993 | 2,856 | 0,303 |
16. | pro | 813 | 23,102 | 2,398 | 0,221 |
17. | od | 601 | 20,081 | 2,467 | 0,232 |
18. | udělat | 450 | 20,072 | 4,217 | 0,779 |
19. | jen | 576 | 20,065 | 2,608 | 0,256 |
20. | za | 665 | 19,286 | 1,988 | 0,166 |
21. | čekat | 386 | 18,550 | 4,163 | 0,751 |
22. | bez | 416 | 18,536 | 3,455 | 0,469 |
23. | tam | 431 | 18,453 | 3,169 | 0,377 |
24. | ležet | 353 | 18,277 | 5,200 | 1,541 |
25. | samotný | 346 | 18,250 | 5,729 | 2,223 |
Kromě řady gramatických slov nacházíme i v této tabulce infinitivy, tentokrát je jich však méně, jsou frekventovanější a bez žánrového omezení. Jediným shodným kolokátem s vysokou hodnotou T‑score i MI‑score je ujít, což ukazuje na kolokaci jak velice frekventovanou, tak silnou.
- Evert, S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. PhD. diss., Univ. Stuttgart, 2005.
- Křen, M. Kolokační míry a čeština: srovnání na datech Českého národního korpusu. In Čermák, F. & M. Šulc (eds.), Kolokace, 2006, 223–248.
- Pecina, P. Lexical Association Measures: Collocation Extraction. PhD. dis., MFF UK, Praha, 2009.
URL: https://www.czechency.org/slovnik/ASOCIAČNÍ MÍRA (poslední přístup: 11. 12. 2024)
CzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka