FAKTOROVÁ ANALÝZA
Statistická metoda, která slouží k popisu variability pozorovaných proměnných pomocí menšího počtu latentních vysvětlujících proměnných, které se nazývají společné faktory. Předpokládejme, že na n objektech pozorujeme p číselných znaků. V lingvistice mohou být objekty reprezentovány např. textem, autorským korpusem či jazykem, znaky mohou být reprezentovány např. frekvencí výskytu zvolené jazykové jednotky či gramatického jevu, kolokací atp. Často se stává, že počet pozorovaných znaků je redundantní z důvodu silných korelací mezi znaky. V takovém případě je možné téměř celou informaci, resp. „variabilitu“, která se v těchto znacích vyskytuje, zachytit výrazně menším počtem přímo nepozorovatelných proměnných. Jinými slovy, někdy je možné identifikovat m << p latentních proměnných, které jsou dostatečné pro informativní popis objektů. F.a. je matematicko‑statistická metoda, která pomáhá určit tyto latentní proměnné.
Model f.a. popisuje pozorování na každém objektu rovnicemi
X1 = a11F1 + a12F2 + … + a1mFm + U1 + μ1, |
X2 = a21F1 + a22F2 + … + a2mFm + U2 + μ2, |
… |
Xp = ap1F1 + ap2F2 + … + apmFm + Up + μp, |
X1, … , Xp jsou pozorované proměnné, F1, … , Fm jsou latentní společné faktory, a11, … , apm jsou tzv. faktorové zátěže, U1, … , Up jsou specifické faktory reprezentující náhodné odchylky a μ1, … , μp jsou konstanty. V tomto modelu jsou jak pozorování, tak společné i specifické faktory náhodnými proměnnými. O společných faktorech obvykle předpokládáme, že mají nulové střední hodnoty, jednotkové rozptyly jsou navzájem nekorelované a také jsou nekorelované se specifickými faktory. O specifických faktorech předpokládáme, že mají nulové střední hodnoty, variance d1, … , dp > 0 a jsou navzájem nekorelované. Takto získáváme tzv. ortogonální model f.a., ve kterém pro kovarianční matici pozorovatelných proměnných platí:
Ʃ = AAT + D, |
kde A je matice faktorových zátěží, tj. aij je prvek v i‑tém řádku a j‑tém sloupci matice A a D je diagonální matice s hodnotami d1, … , dp na diagonále. Konstanty μ1, … , μp vyjadřují za daných předpokladů střední hodnoty pozorovatelných proměnných. Faktorové zátěže a rozptyly d1, … , dp je možné považovat za parametry ortogonálního modelu f.a.. Z dat, tj. z realizací proměnných X1, … , Xp pro každý z n pozorovaných objektů, se dá vypočítat odhad těchto parametrů pomocí tzv. metody hlavních faktorů. Za předpokladu normálního rozdělení je možné parametry modelu f.a. odhadnout prostřednictvím metody maximální věrohodnosti. Metoda maximální věrohodnosti je sice výpočetně náročnější, na rozdíl od metody hlavních faktorů však umožňuje testovat, zda je zvolený počet společných faktorů dostatečný. Vhodný počet společných faktorů je také možné určit pomocí loketního diagramu, případně jiných grafických a heuristických metod.
Jedním z klíčových aspektů modelu f.a. je to, že faktorové zátěže nejsou určeny jednoznačně. Přesněji vyjádřeno, pokud je A matice faktorových zátěží, tak stejně dobře vyhovuje modelu f.a. také matice AU, kde U je jakákoliv matice rotace typu m × m. Ortogonální rotace faktorů je numerická metoda, která umožňuje mezi všemi vyhovujícími maticemi faktorových zátěží nalézt takovou, která má jednoduchou strukturu. Pro tento účel se nejčastěji používá tzv. varimaxní rotační metoda. V modelu f.a., u nějž má matice faktorových zátěží jednoduchou strukturu, je často možné nalézt interpretaci společných faktorů v pojmech oboru, z nějž pocházejí analyzovaná data, tj. společným faktorům lze přiřadit konkrétní význam. Při této interpretaci se využívá té skutečnosti, že pokud jsou pozorovatelné proměnné standardizované na jednotkový rozptyl, pak je faktorová zátěž aij rovna korelačnímu koeficientu mezi pozorovatelnou proměnnou Xi a společným faktorem Fj. Z odhadů faktorových zátěží a variancí specifických faktorů je možné vypočítat odhady faktorových skóre, tj. odhady přímo nepozorovatelných realizací proměnných F1, … , Fm pro každý objekt.
F.a. se používá v přírodních i humanitních vědách, zvláště v psychologii (např. ✍Fabrigar & Wegener ad., 1999). V lingvistice ji aplikoval např. ✍Biber (1992), ✍Biber (1993) pro analýzu žánrů a stylů či pro analýzu polysémie, založené na základě kolokačních charakteristik daného výrazu. K f.a. podrobněji viz ✍Rencher (2002), ✍Seber (2004), ✍Izenman (2008), ✍Härdle & Simar (2012) a jiné monografie o mnohorozměrných statistických metodách.
- Biber, D. The Multi-dimensional Approach to Linguistic Analyses of Genre Variation: An Overview of Methodology and Findings. Computers and the Humanities 26, 1992, 331–345.
- Biber, D. Co-occurrence Patterns among Collocations: A Tool for Corpus-based Lexical Knowledge Acquisition. Computational Linguistics 19, 1993, 531–538.
- Fabrigar, L. R. & D. T. Wegener ad. Evaluating the Use of Exploratory Factor Analysis in Psychological Research. Psychological Methods 4, 1999, 272–299.
- Härdle, W. K. & L. Simar. Applied Multivariate Statistical Analysis, 2012.
- Izenman, A. Modern Multivariate Statistical Techniques, 2008.
- Rencher, A. C. Methods of Multivariate Analysis, 2002.
- Seber, G. A. F. Multivariate Observations, 2004.
URL: https://www.czechency.org/slovnik/FAKTOROVÁ ANALÝZA (poslední přístup: 23. 11. 2024)
CzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka