Korelacija

Izvor: Wikipedija
Skoči na: orijentacija, traži

Korelacija (lat. con = sa, relatio = odnos) predstavlja suodnos ili međusobnu povezanost između različitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znači da je vrijednost jedne varijable moguće s određenom vjerojatnošću predvidjeti na osnovi saznanja o vrijednosti druge varijable. Klasični primjeri povezanosti su npr. saznanje o utjecaju količine padalina na urod žitarica, o povezanosti slane hrane i visokog krvnog tlaka i sl. Promjena vrijednosti jedne varijable utječe na promjenu vrijednosti druge varijable. Varijabla koja svojom vrijednošću utječe na drugu varijablu naziva se neovisna varijabla. Varijabla na koju se utječe naziva se ovisna varijabla. Npr. unošenje više soli u organizam utječe na porast krvnog tlaka, dok porast krvnog tlaka ne utječe na povećanje unošenja soli u organizam. U ovom primjeru unošenje soli u organizam je neovisna varijabla, a povećanje krvnog tlaka je ovisna varijabla. Mogući su slučajevi da dvije varijable istovremeno utječu jedna na drugu, pa su u tom slučaju obje varijable istovremeno i ovisne i neovisne.

Odnos između varijabli[uredi VE | uredi]

Međusoban odnos između dvije varijable, grafički možemo prikazati pomoću dvodimenzionalnog grafa, tzv. scatter dijagram (dijagrama raspršenja). Vrijednosti jedne varijable prikazane su na x osi, a druge na y osi dijagrama. Točke presjeka kreću se oko određenog pravca koji se naziva linija regresije. Što su točke bliže pravcu, korelacija je veća. Što su točke raspršenije korelacija je manja. U praksi je vizualno vrlo teško, osim u slučaju »savršene« korelacije odrediti stupanj povezanosti između varijabli. Ovisno o međusobnom odnosu dvaju varijabli među kojima postoji korelacija, ona može biti linearna ili nelinearna. Kod linearne korelacije, točke su grupirane oko pravca. Kod nelinearne korelacije, točke su grupirane oko neke druge krivulje.

Dvije varijable koje promatramo s ciljem utvrđivanja njihove korelacijske povezanosti mogu biti u 4 različita odnosa:

  1. kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i kada velika vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable, radi se o pozitivnoj korelaciji.
  2. kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable i obratno, radi se o negativnoj korelaciji.
  3. kada vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge varijable, a u drugim intervalima velikoj vrijednosti, radi se o nemonotonoj korelaciji. Ako se korelacija više nego jednom mijenja od pozitivne prema negativnoj, takva korelacija naziva se ciklička korelacija.
  4. kada se na osnovi vrijednosti jedne varijable ne može zaključiti ništa o vrijednosti druge varijable, tada korelacija ne postoji. Točke u takvom grafu su raspršene.

Koeficijenti korelacije[uredi VE | uredi]

Koeficijenti korelacije izražavaju mjeru povezanosti između dvije varijable u jedinicama neovisnima o konkretnim jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim slučajevima. U praksi se prilikom rada s linearnim modelima najčešće koristi Pearsonov koeficijent korelacije (produkt moment koeficijent korelacije). Prilikom rada s modelima koji nisu linearni najčešće se koristi Spearmanov koeficijent korelacije (produkt rang koeficijent korelacije).

Pearsonov koeficijent korelacije[uredi VE | uredi]

Pearsonov koeficijent korelacije koristi se u slučajevima kada između varijabli promatranog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija). Predznak koeficijenta nas upućuje na smjer korelacije – da li je pozitivna ili negativna, ali nas ne upućuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi stvarnog utjecaja promatranih varijabli jedne na drugu u odnosu na maksimalni mogući utjecaj dviju varijabli. Označava se malim latiničkim slovom r. Za izračun koeficijenta korelacije potrebna su tri različite sume kvadrata (SS): suma kvadrata varijable X, suma kvadrata varijable Y i suma umnožaka varijabli X i Y.

Suma kvadrata varijable X jednaka je sumi kvadrata odstupanja vrijednosti varijable X od njezine prosječne vrijednosti:

SS_{XX}=\sum_{i=1}^n (X_i - \overline{X})^2

Prosječna vrijednost varijable X jednaka je:

\overline{X}=\frac 1 n \sum_{i=1}^n X_i

Suma kvadrata varijable Y jednaka je sumi kvadrata odstupanja vrijednosti varijable Y od njezine prosječne vrijednosti:

SS_{YY}=\sum_{i=1}^n (Y_i - \overline{Y})^2

Prosječna vrijednost varijable Y jednaka je:

\overline{Y}=\frac 1 n \sum_{i=1}^n Y_i

Suma umnožaka varijabli X i Y jednaka je sumi umnožaka odstupanja vrijednosti varijabli X i Y od njihovih prosjeka:

SS_{XY}=\sum(X_i - \overline{X})(Y_i - \overline{Y})

Koeficijent korelacije jednak je omjeru:

r=\frac{SS_{XY}}{\sqrt{SS_{XX}\cdot SS_{YY}}}

U slučaju da među varijablama ne postoji linearna povezanost, može se provesti odgovarajuća transformacija kojom se vrijednosti varijabli modela svode na linearne.

Spearmanov koeficijent korelacije[uredi VE | uredi]

Spearmanov koeficijent korelacije (produkt rang korelacije) koristi se za mjerenje povezanosti između varijabli u slučajevima kada nije moguće primjeniti Pearsonov koeficijent korelacije. Bazira se na tome da se izmjeri dosljednost povezanosti između poredanih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduvjet za korištenje Pearsonovog koeficijenta) nije bitan. Slučajevi u kojima se koristi Spearmanov koficijent su npr. kada među varijablama ne postoji linearna povezanost, a nije moguće primjeniti odgovarajuću transformaciju kojom bi se povezanost prevela u linearnu (npr. veza između seizmičkog atributa i bušotinskog podataka u naftnoj geologiji). Spearmanov koeficijent korelacije kao rezultat daje približnu vrijednost koeficijenta korelacije koji se tretira kao njegova dovoljno dobra aproksimacija. Prilikom korištenja Spearmanovog koeficijenta, vrijednosti varijabli potrebno je rangirati i na takav način svesti na zajedničku mjeru. Najjednostavniji način rangiranja je da se najmanjoj vrijednosti svake varijable pridjeli rang 1, slijedećoj po veličini rang 2 i tako sve do posljednje kojoj se pridjeljuje maksimalan rang. Izračunavanje koeficijenta radi se korištenjem vrijednosti pridijeljenih rangova. Spearmanov koeficijent označavati ćemo s rS.

Formula za izračun Spearmanovog koeficijenta korelacije je:

r_S = 1- 6\sum_{i=1}^n{\frac { {d_i}^2}{n(n^2 - 1)}}

gdje je d razlika vrijednosti rangova dvije promatrane varijable, a n je broj različitih serija.

Matrica korelacije[uredi VE | uredi]

Ponekad nam u istraživanju nije dovoljna informacija o korelaciji dvije promatrane varijable, već nas zanima na koji način više varijabli međusobno utječe jedna na drugu. Nakon što se promatranjem međusobnog odnosa svih parova dvaju varijabli utvrdi njihova međusobna korelacija, izrađuje se matrica korelacije. Retci i stupci matrice predstavljaju promatrane varijable, a podatak na presjeku određenog retka i stupca predstavlja koeficijent korelacije između varijabli u odgovarajućem retku i stupcu. Matrica na dijagonali ima podatak 1 (pošto je svaka varijabla sama sa sobom u potpunoj korelaciji). Dobivena matrica je simetrična - podaci iznad i ispod dijagonale za isti par varijabli su identični. Zbog tih svojstava matrica je redundantna i dovoljno je promatrati jedan njezin dio, iznad dijagonale ili ispod dijagonale. Vizualno možemo utvrditi u kojoj mjeri su dvije pojedinačne varijable u korelaciji, koje varijable u međusobnom odnosu imaju najveći ili najmanji koeficijent korelacije, te koji skupovi varijabli se ističu sličnim koeficijentima. Vizualno ne možemo utvrditi na koji način i u kolikoj mjeri više varijabli zajednički utječe na drugu pojedinačnu varijablu.

Višestruka korelacija (multiple korelacija)[uredi VE | uredi]

Višestruka korelacija je analitička procedura kojom se utvrđuje na koji način više neovisnih varijabli utječe na jednu ovisnu varijablu. Koeficijent višestruke korelacije označava se velikim latiničnim slovom R. Za računanje koeficijenta višestruke korelacije potrebno je prvo izračunati koeficijente korelacije između svakog para varijabli koje promatramo. Odnos koeficijenata korelacije varijabli može se prikazati matricom korelacije. Dobivene koeficijente potrebno je uvrstiti u formulu za izračun višestruke korelacije. Podaci višestruke korelacije kod koje se promatra međusobni utjecaj tri varijable može se prikazati trodimenzionalnim scatter dijagramom.

Formula za izračun višestruke korelacije kada promatramo utjecaj dvije neovisne varijable na treću, ovisnu, je slijedeća:

R = \frac \sqrt{{r_{YX_1}}^2 + {r_{YX_2}}^2 - 2\cdot r_{YX_1}\cdot r_{YX_2}} \sqrt{1- {r_{X_1X_2}}^2}

Neovisne varijable čije vrijednosti promatramo označene su sa X1 i X2, a ovisna varijabla označena je sa Y. Koeficijent višestruke korelacije poprima vrijednost od 0 do +1, i u njegovoj interpretaciji primjenjuju se ista pravila kao kod interpretiranja koeficijenta jednostavne korelacije. Kako bi izračun višestruke korelacije bio što precizniji, potrebno je koristiti veći uzorak s više vrijednosti varijabli nego u slučaju izračuna koeficijenata kod jednostavne korelacije.

Računanje korelacije[uredi VE | uredi]

Prilikom utvrđivanja korelacije dvaju varijabli, vrlo je važno na ispravan način izabrati varijable koje se promatraju. Vrijednosti varijabli bi trebale biti izabrane iz slučajnoga skupa. Što je veći broj varijabli koje se promatraju, to će rezultati biti precizniji. Povećanje broja promatranih vrijednosti varijabli može u velikoj mjeri promijeniti rezultate izračuna.

Outlieri[uredi VE | uredi]

Prilikom računanja korelacije varijabli, potrebno je obratiti pažnju na tzv. outliere. To su vrijednosti varijabli koje u velikoj mjeri odstupaju od ostalih. Zbog načina računanja linije regresije, usamljeni outlieri mogu u velikoj mjeri promijeniti rezultate. Stoga je potrebno prilikom izračunavanja korelacije donijeti odluku o tome da li je možda korisnije takve outliere isključiti i njihove vrijednosti ne koristiti prilikom izračunavanja korelacije. U tom slučaju outliere tretiramo kao greške koje se događaju prilikom određivanja uzorka. Outliere je najlakše uočiti promatrajući scatter dijagram i tražeći vrijednosti varijabli koje neuobičajeno odstupaju od linije regresije. Odluka o pronalaženju i uklanjanju outliera se s dosta velikom sigurnošću može donijeti kada imamo velik uzorak, a broj outliera je vrlo mali. U slučaju malog uzorka ne možemo biti sigurni da li se radi o outlierima, ili su te vrijednosti dio regularnog skupa podataka.

U određenim slučajevima za pronalaženje i uklanjanje outliera koriste se odgovarajuće kvantitativne metode (npr. uklanjanje svih uzoraka koji odstupaju više od ±2 standardne devijacije od prosjeka grupe). Takvo drastično čišćenje podataka u nekim područjima istraživanjaje je nužno kako bi se dobili ispravni podaci. Za pronalaženje i uklanjanje outliera ne postoje opće prihvaćene metode i pravila tako da je to u potpunosti subjektivno i ovisi isključivo o odluci istraživača u određenoj situaciji.

Primjena korelacije[uredi VE | uredi]

Rezultati korelacije imaju brojne praktičke primjene, ali se ni u kojem slučaju ne bi smjeli samo na osnovi rezultata utvrđene korelacije donositi zaključci o uzročno-poljedičnoj vezi. Korelacija se ne bi trebala koristiti za donošenje zaključaka o uzročno-posljedičnoj vezi između dvije varijable pošto je velika vjerojatnost da će zaključak biti kriv. Čest slučaj je da se promatra odnos između dvije varijable koje su u korelaciji visokog stupnja. Međutim, postoji i skrivena treća varijabla koju bi također trebalo staviti u odnos s promatrane dvije, kako bi se ispravno protumačio uzročno-posljedični odnos.

Jedan od klasičnih, u literaturi često spominjanih primjera, je pojava uočena u Kopenhagenu nekoliko godina poslije završetka Drugog svjetskog rata. Zamijećena je korelacija između povećanja broja novorođene djece i broja roda koje su se gnijezdile u gradu. Ako bi se korelacija bez razmišljanja protumačila kao uzročno-posljedični odnos, moglo bi se zaključiti da rode donose djecu. Pravi uzrok leži u tome što se po završetku rata velik dio stanovništva sa sela preselio u grad, što je uzrokovalo povećanje broja stanovnika u gradu, a samim tim i povećanje broja novorođene djece. Istovremeno, za nove stanovnike grada izgradile su se nove kuće, tako da su i rode dobile veći broj dimnjaka za svoja gnijezda. Tu je dakle, postojala skrivena varijabla - broj stanovnika, koju je prilikom donošenje zaključka o uzročno-posljedičnoj vezi trebalo uzeti u obzir.

Naravno, ima i suprotnih primjera kada ne postoji skrivena varijabla. Vrlo rano je ustanovljena korelacija između pušenja i vjerojatnosti da će osoba oboljeti od raka. Duhanska industrija branila je svoju tezu da se ne može uspostaviti uzročno-posljedična veza između pušenja i vjerojatnosti dobivanja raka. Oni su tezu obrazlagali time da su pušači vrlo često nervozne osobe, koje zbog toga što su nervozne počinju pušiti. Istovremeno postoji korelacija između toga da je osoba nervozna i vjerojatnosti da će takva osoba dobiti rak. S druge strane, liječnici su tvrdili da postoji izravna uzročno-posljedična veza između pušenja i vjerojatnosti da će osoba dobiti rak, što je kasnije i potvrđeno.

Na osnovi utvrđene korelacije ne možemo sa sigurnošću utvrditi uzročno-posljedičnu vezu između dviju varijable. Unatoč tome korelacija nam daje informaciju o tome da su te dvije varijable na određeni način povezane. Iako ne shvaćamo u potpunosti mehanizam te povezanosti, znamo da povezanost postoji i prilikom opisa varijabli to možemo uzeti u obzir. Npr. poznato nam je da je povećana tjelesna težina u korelaciji s povećanom smrtnošću i možemo reći da su te dvije varijable u međusobnom odnosu. Korelacija se najčešće koristi za predviđanje vrijednosti jedne varijable ovisno o promjeni vrijednosti druge varijable, u slučaju ako su te dvije varijable u korelaciji. Saznanje o korelaciji između dvije varijable pomaže nam da s većom sigurnošću predvidimo na koji način će se mijenjati vrijednost druge varijable. Npr. poznato nam je da su količina unesene soli u organizam i visina krvnog tlaka osoba određenog spola i dobi u korelacijskom odnosu i taj odnos nam je poznat. Na osnovi tih informacija možemo dozirati unos potrebne količine soli u organizam kako bi krvni tlak ostao unutar granica normale, a organizam bi primio dovoljnu količinu soli za normalno funkcioniranje.

Utvrđivanjem korelacije između vrijednosti dvije varijable može se dobiti prva informacija o njihovoj međusobnoj povezanosti. Nakon toga se utvrđena povezanost može detaljnije istražiti drugim statističkim metodama. Npr. korelacijom se utvrdi da postoji veza između korištenje nekog kemijskog sredstva i pojave određene bolesti. Nakon toga se može u eksperimentalnim uvjetima, na laboratorijskim životinjama utvrditi da li stvarno postoji uzročno-posljedična veza između tih varijabli. Korelacija je tu odigrala ulogu da izolira varijable koje međusobno na neki način utječu jedna na drugu, a nakon toga druge metode, koje to mogu, potvrđuju ili odbacuju odgovarajuću uzročno-posljedičnu hipotezu. Korelacija se često koristi za provjeru rezultata testiranja. Nakon provednog testiranja utvrđuje se odgovarajuća korelacija između testiranja i dobivenih rezultata. Nakon što se testiranje ponovi, ponovno se utvrđuje korelacija između novih i prethodno dobivenih rezultata. U slučaju da korelacija ne postoji, obično se zaključuje da je provedeni eksperiment vrlo nestabilan pošto ponovljeni eksperiment ne može ponoviti prethodne rezultate

Vanjske poveznice[uredi VE | uredi]

Korelacija