Föreläsning 1, Introduktion
Varför statistik?
Population – Urval - Mätnivå
Deskription
Cirkeldiagram, stapeldiagram, histogram,spridningsdiagram, boxplot…
Lägesmått (typvärde, median, medelvärde)
Spridningsmått (variationsvidd, kvartilavstånd,standardavvikelse)
1
Statistiska metoder används för att
sammanfatta samlade erfarenheter
göra förutsägelser
dra slutsatser
fatta beslut då informationen är osäker.
Statistikerns roll är att INSAMLA, BEARBETA ochTOLKA data.
2
Statistik består av
Ett antal tekniker
Regler för när, var och hur dessa tekniker skallanvändas (metodologi)
  Statistikämnets uppkomst och utveckling ärnära förknippat med behov inom andradiscipliner.
3
En statistisk undersöknings olikasteg
Problemformulering
Planering
Datainsamling
Analys
Rapportering
4
VAD?
Hur går en statistiskundersökning till?
VEM?
HUR?
Obundet slumpmässigturval (OSU)
Stratifierat urval
Klusterurval
Flerstegsurval
5
6
Obundet slumpmässigt urval
Vid varje dragning av en enhet har de ipopulationen kvarvarande enheterna sammasannolikhet att bli valda
Vid OSU av n enheter har alla möjligakombinationer av n enheter samma chans attbli valda
7
Stratifierat urval
Populationen delas in i strata och ett OSU drasur varje stratum
Skäl:
Om resultatet skall redovisas för varje stratum kanurvalsstorlekarna för varje stratum avpassas så attvissa precisionskrav uppfylles utan att manerhåller överflödiga observationer från vissa strata
8
Skattningar av populationsparametrar (t.ex.populationsmedelvärdet) kan göras med bättreprecision än vid ett OSU, om barastratifieringsvariabeln är ”bra” (homogentinom strata, heterogent mellan strata)
9
Gruppurval (klusterurval)
Populationen delas in i grupper (kluster) avenheter. Ett antal sådan kluster väljsslumpmässigt. Samtliga enheter inom ettkluster undersöks.
Skäl:
Ramproblem
Geografisk spridning
Kostnader
10
Urvalsundersökningar
Varför urvalsundersökning i stället förtotalundersökning?
Billigare
Snabbare
Bättre mätning
Praktiskt omöjligt med totalundersökning dåpopulationen är mycket stor eller oändlig
Förstörande prov
11
Olika typer av urval
Lättåtkomliga element
Frivilliga svar
Frivilliga försökspersoner
Sannolikhetsurval
12
Sannolikhetsurval
Urvalsenheterna väljs med hjälp av någonslumpmekanism
För varje enhet är sannolikheten för attinkluderas i urvalet känd
13
Randomisering
Randomisering innebär att slumpen avgör vilkenbehandling en undersökningsenhet tilldelas
Genom randomisering undviks systematiska fel
Randomisering medför att effekten av eneventuell behandling med hög grad av säkerhetoch precision kan fastställas med hjälp avstatistikteori
14
Med sannolikhetsurval kan man...
ge objektiva mått på undersökningsresultatensprecision
utforma en teori för effektivundersökningsplanering
på förhand göra objektiva jämförelser mellan olikaurvalsplaner
på förhand uppskatta erforderliga urvalsstorlekarför att uppnå önskad precision
population
Population
Stickprov, urval
INFERENS =
Dra slutsatser från data om hela
populationen utifrån ett stickprov
Data,observationer
15
Individer och variabler
Individer, undersökningsobjekt
De vi undersöker. De vi gör mätningar på. Kan varamänniskor, men kan också vara djur, bostadshus,kommuner, mm.
Variabel
En egenskap som kan variera mellan olikaindivider
16
Variabler kan vara kvalitativa eller kvantitativa.
Kvalitativ variabel: Indelning avundersökningsenheterna i olika kategorier.
Ex: kön, civilstånd, gymnasieprogram,partitillhörighet
Kvantitativ variabel: En variabel som är numerisk ochdär vi med hjälp av siffrorna kan uttala oss om hurmycket en undersökningsenhet har av en egenskap.
Ex: ålder, längd, poäng på prov, inkomst
Olika typer av variabler
17
Diskreta och kontinuerliga variabler
En kvantitativ variabel är antingen diskret ellerkontinuerlig.
Diskret: Kan endast anta ett ändligt antal värdeneller kan anta ett oändlig antal värden som dock äruppräkneliga.
Kontinuerlig: Kan anta alla värden i ett intervall.
18
19
Mätnivåer (skalnivåer)
Nominal
Endast klassificering
Ordinal
Klassificering och rangordning
Intervall
Klassificering, rangordning och ekvidistans
Kvot
Klassificering, rangordning, ekvidistans och absolutnollpunkt
20
DESKRIPTION
Bearbeta, tolka och redovisa resultat.
Vad ingår?
Tabeller - Sammanfatta material
Diagram - Åskådliggöra material
Lägesmått - ”Genomsnitt” av material
Spridningsmått - ”Variation” i material
21
Kvalitativa variabler
För att visa en fördelning, i en population ellerett urval, när man har en kvalitativ variabel,kan man t.ex. använda ett stapeldiagram ellerett cirkeldiagram.
22
Stapeldiagram, en variabel. Absolutafrekvenser.
23
Stapeldiagram, en variabel. Relativafrekvenser.
24
Liggande stapeldiagram
25
Cirkeldiagram
26
Fotbollsspelarens rörelsemönster
27
Kvantitativa variabler
När man har en kvantitativ variabel kan mant.ex. använda histogram eller ett stam-bladdiagram. Man kan även klassindelamaterialet och presentera det med hjälp av ettstapeldiagram.
28
Histogram. Nyfödda barns fördelningpå variabeln längd
29
Histogram. Åldersfördelning för etturval av högskoleprovtagare .
30
Stapeldiagram. Åldersfördelning för samtligahögskoleprovtagare våren 1987.
31
Stapeldiagram, två variabler
32
Stam-bladdiagram. Chefernasfördelning på anställningstid.
Anställningstid Stem-and-Leaf Plot
Frequency     Stem &  Leaf
     4,00        0 .  2344
     6,00        0 .  567889
     7,00        1 .  0222233
     8,00        1 .  56788899
     9,00        2 .  111123344
     5,00        2 .  56679
     2,00        3 .  34
 Stem width:     10,00
 Each leaf:       1 case(s)
33
Tidsseriedata
Tidsserier presenteras ofta med hjälp av s.k.linjediagram
I linjediagram kan man ofta upptäcka sådantsom trender, cykler eller säsongsvariationer.
34
Privat konsumtion i USA
35
Försäljning, kvartalsdata
36
Pulsmätning
37
Spridningsdiagram
38
Beskrivande mått
Med hjälp av beskrivande mått sammanfattasfördelningen av ett eller ett fåtal tal.
Lägesmått används för att beskriva centrum:typvärde, median och medelvärde
Spridningsmått används för att beskrivaspridningen: variationsvidd, kvartilavstånd,standardavvikelse
39
Lägesmått
Typvärde: Det mest frekventa värdet
Medianen, M: Värdet i mitten (rangordna)
Udda antal värden : mittersta värdet
Jämt antal värden: medelvärdet av de två mittersta
Medelvärdet, x̄: Summan av alla värden delatmed antalet värden.
40
Exempel 1
Hemläxa: beräkna typvärde, median ochmedelvärde för följande tre dataset.
a)3, 5, 9, 7, 6, 9, 10 (Svar: 9; 7; 7)
b)3, 5, 9, 7, 6, 9, 100 (Svar: 9; 7; 19.86)
c) 3, 5, 9, 7, 6, 9, 10, 4 (Svar: 9; 6.5; 6.63)
41
Här är medelvärde och median lika. Hur ska man skiljapå dessa?
42
Spridningsmått
Variationsvidden är skillnaden mellan detstörsta och det minsta värdet.
Kvartilavståndet, IQR, anger inom vilketavstånd de 50% mittersta observationernaligger (Q3-Q1).
Standardavvikelsen, s, beskriver hur mycketmätvärdena avviker från medelvärdet.
43
Kvartiler
Kvartilerna delar upp datat i fyra lika storadelar.
Första kvartilen (Q1): 25% av alla värden ärmindre än Q1
Andra kvartilen (Q2):  medianen
Tredje kvartilen (Q3): 25% av alla värden är störreän Q3.
44
3, 5, 9, 7, 6, 9, 10
Descriptive Statistics:
N Mean Minimum  Q1  Median Q3  Maximum
      7  7     3     5     7    9    10
45
X
X
*
o
Median
Q1
Q3
Inre
staket
Inre
staket
Yttrestaket
Yttrestaket
Kvartilavstånd IQR
Minsta punkteninom inrestaketet
Största punkteninom inre staketet
Misstänktoutlier
Outlier
Q1-3(IQR)
Q1-1.5(IQR)
Q3+1.5(IQR)
Q3+3(IQR)
Låddiagram (Boxplot)
46
3, 5, 9, 7, 6, 9, 100
Descriptive Statistics:
N Mean Minimum  Q1  Median Q3  Maximum
      7  19,9    3     5     7    9    100
47
Exempel: BMI för fotbollsspelare (samtliga spelare i detvå bästa lagen år 2003) i fyra olika ligor.
48
Standardavvikelse
Beskriver hur mycket mätvärdena varierar kringmedelvärdet.
Stickprovsvarians, s2:
Stickprovsstandardavvikelse, s:
49
Exempel:    3, 5, 9, 7, 6, 9, 10
xi
xi-
(xi-x̄)2
Medel=7
Summa=38
50
Svar:  medelvärde = (3+5+9+7+6+9+10)/7 = 7          statndardavvikelse = rot(((3-7)^2+…+(10-7)^2)/6)=rot(38/6)=2.52
Hemläxa: Beräkna medelvärde och standardavvikelse ? (använd formlerpå föregående sidor)
Hjälptabell
Exempel: Ålder
Descriptive Statistics: Ålder
Variable   N    Mean    StDev   Minimum     Q1      Median     Q3        Maximum
Ålder       50   42,58    11,21      23,00       32,75     42,00     50,25         64,00
51
nominal
ordinal
kvot
typvärde
typvärde
typvärde
median
median
(vissa fallmedelvärde)
medelvärde
variationsvidd
variationsvidd
kvartilavstånd
kvartilavstånd
standardavv.
52
53
Några felkällor vid statistiskaundersökningar
Täckningsfel
Övertäckning
Urvalsramen innehåller individer som ej finns med imålpopulationen
Undertäckning
Urvalsramen saknar individer som finns med imålpopulationen
Kan ge upphov till systematiska fel (bias)
54
Bortfallsfel
Individbortfall innebär att man från en ellerflera individer ej får något svar på t.ex. enpostenkät
Partiellt bortfall innebär svarsvägran på vissafrågor
Kan ge stora systematiska fel
55
Mätfel
Mätfel som beror på respondenten
Mätfel som beror på intervjuaren
Mätfel som beror på mätmetoden
Mätfel som beror på frågeformuläret
56
Bearbetningsfel
Kodningsfel
Inmatningsfel
Datorbearbetningsfel
57
Urvalsfel
Uppstår när man studerar ett urval i stället förhela populationen
Slumpmässigt och möjligt att uppskatta omurvalet görs ”korrekt”
pricken1.jpg
Lärares roll
58
What lies ahead
You learn statistics by doing statistical problems.Practice, practice, practice”. Be prepared to workproblems. The basic principle in learning ispersistence. Being organized and persistent is morehelpful in reading this book than knowing lots ofmath. The main ideas of statistics, like many ideas ofany important subject, took a long time to discoverand take some time to master. The gain will be worththe pain”.
59