Linearna regresija

Izvor: Wikipedija
Skoči na: orijentacija, traži
Primjer linearne regresije s jednom nezavisnom varijablom

U statistici, linearna regresija se odnosi na svaki pristup modeliranju relacija između jedne ili više varijabli označene sa Y, te jedne ili više varijabli označene sa X, na način da takav model linearno ovisi o nepoznatim parametrima estimiranih iz podataka. Najčešće se linearna regresija odnosi na model u kojem je uvjetna srednja vrijednost od Y, uz danu vrijednost X, afina funkcija od X.

Mnogo rjeđe, linearna regresija se može odnositi na model u kojem medijan, ili neki drugi kvantil uvjetne distribucije Y za dani X se izražava kao linearna funkcija od X. Kao i svi drugi oblici regresijske analize, linearna regresija se fokusira na razdiobu uvjetne vjerojatnosti od Y za dani X, a ne na razdiobu zajedničke vjerojatnosti od Y i X, što je domena multivarijantne analize (engl. multivariate analysis)

Linerana regresija je bila prvi tip regresijske analize koja je detaljno proučavana i koja se ekstenzivno koristila u praktičnim primjenama. Razlog za ovo je taj što se modeli koji linerano ovise o svojim nepoznatim parametrima lakše modeliraju nego modeli sa nelinearnom ovisnošću o parametrima. Također, statistička svojstva rezultirajućih estimatora se lakše određuju.

Linearna regresija ima mnogo praktičnih primjena. Većina aplikacija linearne regresije pada u jednu od sljedeće dvije široke kategorije:

  • Ako je cilj predviđanje ili prognoza, linearna regresija se može koristiti za podešavanje preditivnog modela prema promatranom skupu podataka vrijednosti Y i X. Nakon razvoja ovakvog modela, ako je data vrijednost za X bez pripadajuće vrijednosti Y, podešeni model se može koristiti za predviđanje vrijednosti Y.
  • Ako imamo varijablu Y i veći broj varijabli X1, ..., Xp koje mogu biti povezane sa Y, možemo koristiti lineranu regresijsku analizu za kvantificiranje jačine relacije između Y and the Xj, za procjenu koji je Xj uopće vezan za Y, te da bi identificirali koji podskupovi od Xj sadrže redundantne informacije o Y, tako da, kad je jedan od njih poznat, ostali više ne daju korisne informacije.

Linearni regresijski modeli se često podešavaju uz pomoć metode najmanjih kvadrata, iako se mogu koristit i drugi načini, kao što je minimiziranje "nedostatka podešenja" (eng. lack of fit) u nekim drugim normama, ili minimiziranjem penalizirane verzije funkcije gubitaka najmanjih kvadrata, kao kod Tikhonove regularizacije.

Nasuprot tome, pristup metodom najmanjih kvadrata se može iskoristiti za podešavanje neliearnih modela. Prema tome, pojmovi "najmanjih kvadrata" i "linearni model" jesu usko povezani, ali nisu sinonimi.

Uvod[uredi VE | uredi]

Uz zadani skup podataka \{y_i,\, x_{i1}, \ldots, x_{ip}\}_{i=1}^n od n statističkih jedinica, model linearne regresije pretpostavlja da se relacija između zavisne varijable y_i i p-vektora regresora x_i može aproksimativno uzeti kao linearna. "Aproksimativno" se ovdje odnosi na "smetnje" εi — nepromatranu slučajnu varijablu koja dodaje šum u linearnu relaciju između zavisne varijable i regresora. Stoga, model ima oblik

 y_i = \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \varepsilon_i 
             = x'_i\beta + \varepsilon_i, 
         \qquad i = 1, \ldots, n,

gdje je x_i'\beta unutarnji produkt između vektora x_i i \beta.

Često su ovih n jednadžni složene u vektorski oblik kao

 Y = X\beta + \varepsilon, \,

gdje je

 Y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}, \quad
         X = \begin{pmatrix} x'_1 \\ x'_2 \\ \vdots \\ x'_n \end{pmatrix} 
           = \begin{pmatrix} x_{11} & \cdots & x_{1p} \\ 
                             x_{21} & \cdots & x_{2p} \\ 
                             \vdots & \ddots & \vdots \\ 
                             x_{n1} & \cdots & x_{np} 
             \end{pmatrix}, \quad
         \beta = \begin{pmatrix} \beta_1 \\ \vdots \\ \beta_p \end{pmatrix}, \quad
         \varepsilon = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix}.

Neke napomene vezane uz terminologiju:

  • y_i\, se naziva regresand, zavisna varijabla, endogena varijabla, variabla odgovora ili mjerena varijabla. Odluka o tome koja se varijabla u skupu podataka modelira kao zavisna varijabla, a koja kao nezavisna može se temeljiti na pretpostavci da je jedna od varijabli posljedica ili pod utjecajem druge varijable.

Reference[uredi VE | uredi]

  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
  • Charles Darwin. The Variation of Animals and Plants under Domestication. (1869) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
  • Draper, N.R. and Smith, H. Applied Regression Analysis Wiley Series in Probability and Statistics (1998)
  • Francis Galton. "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263 (1886). (Facsimile at: [1])
  • Robert S. Pindyck and Daniel L. Rubinfeld (1998, 4h ed.). Econometric Models and Economic Forecasts,, ch. 1 (Intro, incl. appendices on Σ operators & derivation of parameter est.) & Appendix 4.3 (mult. regression in matrix form).

Vanjske poveznice[uredi VE | uredi]