Linearna analiza različitih

Izvor: Wikipedija
Skoči na: orijentacija, traži

Linearna analiza različitih je hrvatski naziv za klasifikacijsku metodu LDA (eng. Linear Discriminant Analysis).

LDA je statistička tehnika klasifikacije objekata u međusobno isključive grupe bazirane na mjerenim svojstvima objekata. Ova metoda se često naziva raspoznavanje uzoraka ili nadgledno (eng. supervised) učenje. Kada primjenjujemo ovu metodu pazimo na dvije glavne točke: koja svojstva objekta će odrediti pripadnost pojedine grupe i koji model ili pravilo najbolje razlučuje pojedine grupe. Klasifikacijsko pravilo poznato pod nazivom Bayesovo pravilo kaže da se objekt s najvećom kondicionalnom vjerojatnošću pridjeljuje grupi. Pravilo minimizira TEC (eng. The Error of Classification – pogreška klasifikacije). Ako postoji grupa Bayesovo pravilo će pridjeliti grupi i objekt ako:

P(i|x)>P(j|x), za \forall i \neq j

Zanima nas vjerojatnost P(i|x) da objekt pripada grupi i, koja je dana kao nekolicina mjerenih svojstava x. U praksi je puno jednostavnije odrediti vjerojatnost nekoliko svojstava x zbog kojih objekt pripada grupi i, P(x|i). Postoji relacija, potekla iz Bayesovog teorema, koja povezuje ove dvije vjerojatnosti:

P(i|x)=\frac{P(x|i)P(i)}{\sum_{\forall j} P(j|x)P(j)}, za \forall i \neq j

Vjerojatnost P(i) je vjerojatnost grupe i prije početka mjerenja. Može se pretpostaviti pa postoji neka konačna jednaka vjerojatnost za sve grupe prije početka mjerenja. U praksi za određivanje P(i|x) je potrebna velika količina podataka za dobivanje relativne frekvencije svih grupa. Praktičnije je pretpostaviti raspodjelu vjerojatnosti i ako pretpostavimo da svaka grupa ima multivariabilnu normalnu raspodjelu i sve grupe imaju istu kovariantnu matricu tada dobivamo LDA formulu:

f_i=\mu_i C^{-1} x_k^T - \frac{1}{2}\mu_i C^{-1} \mu_k^T + ln(p_i)

Objekt k pripada grupi i s maksimumom fi, a \mu_i C^{-1} \mu_k^T je Mahalonobisova udaljenost, koja predstavlja razmak „različitosti“ pojednih grupa.