Föreläsning 7
1
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte,  många gånger ärdet helt klart:
y
x
För en mätserie som denna är det ganska klartatt det finns en koppling mellan x-variabeln ochy-variabeln.
Tekniskt så talar man om att det finns enkorrelation mellan variablerna.
Man skiljer mellan olika typer av korrelation:
y
x
y
x
y
x
y
x
Positiv korrelation
Negativ korrelation
Ingen korrelation
Icke-linjär korrelation
Exemplen ovan är renodlade, normalt ser man oftast fall där det inte är lika klart om detföreligger  en korrelation mellan variablerna eller inte. Det är också så att om man väljer xoch y helt slumpmässigt så får man ibland fördelningar som ser mer korrelerade ut änandra, detta är man som vanligt mer känslig för ju färre punkter man betraktar.
Figurerna nedan är två av tio stycken plottar där var och en innehåller tio slumpvisfördelade talpar I den högra ser man ingen tydlig korrelation, i den vänstra tycks detfinnas en negativ korrelation
Föreläsning 7
2
Det finns en uppenbar kvalitativ skillnad mellan dessa bägge datamängder.
Hur skaffar vi oss en kvantitativ uppskattning av denna skillnad?
Föreläsning 7
3
Korrelationskoefficient
Korrelationskoefficienten, r, definieras som:
För variabler som har en linjär relation kommer
r att ligga nära ±1 (idealt exakt lika med ±1), linjärarelationer med positiv riktiningskoefficient har r = 1(oavsett storleken på riktningskoefficienten) och
samband med negativ riktiningskoefficient har r = -1.
Poängen är att vi kan testa hypotesen om ett linjärt samband även om vi inte har någon uppfattning om mätfelen i deenskilda punkterna.
Men korrelationskoefficienten har en vidare betydelse än så. r=0 är ett nödvändigt, men inte tillräckligt, villkor för atttvå variabler skall vara oberoende.
Finner vi r signifikant skilt från noll finns det alltså anledning att tro att variablerna i fråga inte är oberoende.
Några exempel:
Y = 3 + 4X
r = 1
Y = X2
r = 0.978
Y = 3 + 4X - 5X2
r = - 0.974
Y = 3 +4X -5X2
r = -0.991
Föreläsning 7
4
Som vi har sett exempel på ovan så kan även helt okorrelerade variabler ge värden på denlinjära korrelationskoefficienten som är skiljt från noll. Man kan beräkna sannolikheten för atten slumpmässig fluktuation skall ge en linjör korrelationskoefficient större än ett visst värde.Som oftast så är sannolikheten för slumpmässiga fluktuationer större om vi har ett litet antaltalpar, tittar vi på många par så jämnar fluktuationerna ut sig. Tabeller över dennasannolikhet kan vi använda för att bedöma sannolikheten för att korrelationen i en givendatamängd är slumpmässig eller inte.
En sådan tabell är tabell 7.3 i läroboken. I denna visas, för varierande antal punkter, hur stortabsolutbeloppet av korrelationskoefficienten skall vara för att uppnå två olikasignifikansnivåer för korrelationen, 5% respektive 1%.
Tabellen läses så att om vi t ex har 7 punkter så skall absolutbeloppet avkorrelationskoefficienten vara större än 0.754 för att nå en signifikansnivå om 5% (0.875 för1% signigikansnivå).
Detta innebär att om vi tar ett stort antal icke-korrelerade tal och bildar grupper om 7 styckeni varje och sedan beräknar den linjära korrelationskoefficienten för dessa så kommerabsolutbeloppet vara större ån 0.754 i 5% av dessa grupper, och större än 0.875 för 1% avdessa grupper. Har vi 7 talpar och en korrelationskoefficient med absolutbelopp större än0.875 så är alltså sannolikheten att detta är en statistisk flukutation och att de sju talparen ärokorrelerade mindre än 1%.
Med så låg sannolikhet för en statistisk fluktuation väljer man ofta att tolka detta som att enkorrelation faktiskt föreligger.
Nu har vi kvantitativa verktyg för att analysera de data vi såg tidigare:
Sannolikheten att 50 par avokorrelerade variabler har |r| > 0.05är 73%
=> det verkar relativt sannolikt attförsta bokstaven i gatunamnet intehar något att göra med de två sistasiffrorna i telefonnummret.
Föreläsning 7
5
Sannolikheten att 25 okorrelerade par av variabler har |r| > 0.7 är mindre än 0.05%
=> vi kan utesluta (med mer än 99.9% sannolikhet) att breddgrad inte påverkar årsmedeltemperatur
Det är viktigt att minnas att även saker med så låga sannolikheter som 1% kommer i genomsnittatt inträffa en gång på 100. Betraktar vi ett tillräckligt stort antal parametrar och letar efterkorrelationer mellan dessa så kommer vi att hitta till synes korrelerade variabler enbart på grundav slumpmässiga variationer. 15 variabler kan kombineras på över 100 sätt, så väljer vi att letaefter korrelationer mellan dessa så kommer statistiska fluktuationer ner mot 1%-nivån attuppträda!
Allmänt så kan ett högt värde på korrelationskoefficienten bero på en av tre saker:
1: slumpmässiga fluktuationer. Sannolikheten för dessa kan beräknas och finns
    listad i tabeller som 7.3 i läroboken.
2: bägge variablerna påverkas av en gemensam faktor. Att sjukskrivningar för
   vård av sjukt barn är mycket vanliga kring månadsskiftet augusti-september
   beror inte först och främst på att det är särskilt lätt att bli sjuk just denna tid på
   året, utan på att terminen i skola och förskola börjar då.
3: en variabel beror av den andra, vi säger då att det finns ett kasualt samband.
Ett viktigt sätt att försöka avgöra vilket som är fallet är att försöka hitta en model förkasualiteten, en modell som har förankring i något man tidigare observerat i andrasammanhang. Detta sätt att resonera har en mycket stark förankring inom naturvetenskapen.