ARF (průměrná redukovaná frekvence, average reduced frequency)
Jedna z mnoha upravených frekvencí (adjusted frequencies) ↗slovního tvaru v ↗korpusu; viz ✍Savický & Hlaváčová, (2002). Upravené frekvence modifikují prostou ↗frekvenci (počet výskytů) daného výrazu či jevu v korpusu podle míry rovnoměrnosti rozložení jeho výskytů.
Hodnota ARF je dána vztahem:
Hodnota f je frekvence daného výrazu v korpusu velikosti N, di jsou vzdálenosti mezi jednotlivými výskyty tohoto výrazu v korpusu (počty mezilehlých slov) a v je průměrná vzdálenost mezi jeho výskyty daná vztahem v = N/f. Protože N je dělitelné f pouze výjimečně, nabývá ARF typicky neceločíselných hodnot, což je pro upravené frekvence běžné. Hodnota ARF pro daný výraz je korekcí jeho frekvence založenou na rozložení jeho výskytů v korpusu: čím je rozložení rovnoměrnější, tím více se hodnota ARF blíží frekvenci a naopak; pro výrazy, jejichž výskyty jsou v korpusu soustředěny do jediného shluku, se hodnota ARF blíží jedné bez ohledu na frekvenci. Maximální hodnota ARF je tedy rovna frekvenci (je‑li di = v pro všechna i, tj. jsou‑li vzdálenosti mezi všemi výskyty daného výrazu shodné), její nejmenší hodnota je rovna jedné.
Hodnota ARF se pro frekventovaná slova s rovnoměrným rozložením výskytů pohybuje okolo třetiny jejich frekvence, pro odborné termíny vyskytující se pouze v několika dokumentech ale může být i mnohonásobně (10krát až 100krát) menší než frekvence. ARF je ve srovnání s frekvencí mnohem méně náchylná na ne/zařazení konkrétních textů do korpusu, jejím používáním namísto frekvence lze tedy zabránit tomu, aby se ve frekvenčních seznamech dostávala do popředí slova, která jsou v korpusu sice relativně frekventovaná, ale vyskytují se přitom jen v několika málo textech; ARF tedy lépe odpovídá intuitivně chápané běžnosti slov.
ARF je v č. prostředí známá díky implementaci v korpusovém manažeru Manatee/Bonito (viz ↗korpusový a lingvistický software) používaném v ↗ČNK, obstála také ve srovnání s ostatními běžně používanými upravenými frekvencemi a disperzními mírami (✍Gries, 2008). Mimoto se ARF prakticky osvědčila jako hlavní kritérium pro stanovení běžnosti slov při sestavování obou nejnovějších ↗frekvenčních slovníků češtiny.
- Gries, S. T. Dispersions and Adjusted Frequencies in Corpora. International Journal of Corpus Linguistics 13, 2008, 403–437.
- Savický, P. & J. Hlaváčová. Measures of Word Commonness. Journal of Quantitative Linguistics 9, 2002, 215–231.
URL: https://www.czechency.org/slovnik/ARF (poslední přístup: 3. 12. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka