Hvordan bruke quantile Tomter for å sjekke data Normalitet i R

March 3  by Eliza

Histogrammer later mye til tolkning av betrakteren. En bedre grafisk måte i R for å fortelle om din data distribueres normalt er å se på en såkalt quantile-quantile (QQ) plot.

Med denne teknikken, du plotte kvantilmålet mot hverandre. Hvis du sammenligner to prøver, for eksempel, du bare sammenligne kvantilmålet av begge prøvene. Eller, for å si det litt annerledes, gjør R følgende å konstruere en QQ plott:

  • Den sorterer data fra begge prøvene.
  • Det plotter disse sortert verdier mot hverandre.

Hvis begge prøvene dona € ™ t inneholde det samme antall verdier, beregner R ekstra verdier ved interpolering for den minste prøve å lage to prøver av samme størrelse.

Hvordan å sammenligne to dataprøver

Selvfølgelig, dona du € ™ t må gjøre det helt alene, kan du bare bruke qqplot () funksjon for det. Så, for å sjekke om temperaturer under aktivitet og under resten fordeles likt, du bare gjøre følgende:

> Qqplot (beaver2 $ temp [beaver2 $ activ == 1],
+ Beaver2 $ temp [beaver2 $ activ == 0])

Dette skaper et diagram hvor de ordnede verdier plottes mot hverandre.

Hvordan bruke quantile Tomter for å sjekke data Normalitet i R


Mellom hakeparentesene, kan du bruke en logisk vektor for å velge de sakene du ønsker. Her velger du alle tilfeller hvor den variable activ lik 1 for den første prøven, og alle tilfeller der den variabelen er lik 0 for den andre prøven.

Hvordan du bruker en R QQ plott for å se etter data normalitet

I de fleste tilfeller, dona du € ™ t ønsker å sammenligne to prøver med hverandre, men sammenligner en prøve med en teoretisk prøve som kommer fra en viss fordeling (for eksempel normalfordelingen).

For å gjøre en QQ plott på denne måten, har R den spesielle qqnorm () -funksjonen. Som navnet tilsier, plotter denne funksjonen prøven mot en normalfordeling. Du bare gi prøven du vil plotte som et første argument og legge til grafiske parametere du vil.

R skaper da en prøve med verdier som kommer fra standard normalfordeling, eller en normalfordeling med en middelverdi på null og et standard avvik på én. Med denne andre prøven, skaper R QQ plott som forklart tidligere.

R har også en qqline () -funksjonen, som legger til en linje i normal QQ plot. Denne linjen gjør det mye lettere å vurdere om du ser en klar avvik fra normalitet. Jo nærmere alle punktene ligger på linje, jo nærmere fordelingen av prøven kommer til normalfordelingen. Den qqline () -funksjonen tar også prøven som et argument.

Nå ønsker du å gjøre dette for temperaturer under både den aktive og inaktive perioden av bever. Du kan bruke qqnorm () -funksjonen to ganger for å skape både plott. For de inaktive perioder, kan du bruke følgende kode:

> Qqnorm (beaver2 $ temp [beaver2 $ activ == 0], hoved = 'Inaktiv')
> Qqline (beaver2 $ temp [beaver2 $ activ == 0])

Du kan gjøre det samme for den aktive perioden ved å endre verdien 0 til 1..

Hvordan bruke quantile Tomter for å sjekke data Normalitet i R