Statistikk conundrums: Dealing med Survey nonresponders

January 11  by Eliza

Nonresponders er alltid et problem når du beregne resultatene av en undersøkelse. Før du kan knase tallene i alle undersøkelser du får tilbake, må du bestemme hva du skal gjøre om de undersøkelsene du ikke får tilbake.

En avisartikkel om den siste undersøkelsen sier at 50 prosent av de spurte sa blah blah blah. Den fine print sier at resultatene er basert på en undersøkelse blant 1000 voksne i USA. Men vent - er 1000 det faktiske antallet personer som er valgt for prøven, eller er det den endelige antall respondenter? Du må kanskje ta en ekstra titt; disse to tallene nesten aldri matche.

For eksempel ønsker Jenny å vite hvor mange prosent av folk i USA noensinne bevisst jukset på sine skatter. I sin statistikk klasse, fant hun ut at hvis hun får et utvalg på 1000 mennesker, er feilmarginen for hennes undersøkelse bare pluss eller minus tre prosent, som hun mener er groovy. Så hun setter ut for å oppnå målet om 1.000 svar på hennes undersøkelse. Hun vet at i disse dager, er det vanskelig å få folk til å svare på en undersøkelse, og hun er bekymret for at hun kan miste en stor del av hennes prøve på den måten, så hun har en idé. Hvorfor ikke sende ut flere undersøkelser enn hun trenger, slik at hun får 1000 undersøkelser tilbake?

Jenny ser på flere resultatene fra undersøkelsen i aviser, magasiner og på internett, og hun finner at responsrate (prosentandel av folk som faktisk svarer på en undersøkelse) er vanligvis rundt 25 prosent. (I forhold til den virkelige verden, er dette sjenerøse, tro det eller ei, men tenk på det:.? Hvor mange undersøkelser har du kastet bort det siste) Så Jenny tallene at hvis hun sender ut 4.000 undersøkelser og får 25 prosent av dem tilbake, hun har de tusen undersøkelser hun trenger å gjøre sin analyse, svare på hennes spørsmål, og har som liten feilmargin på pluss eller minus tre prosent.

Jenny gjennomfører hennes undersøkelse, og akkurat som smurt, ut av de 4000 undersøkelser hun sender ut, 1000 komme tilbake. Hun går videre med hennes analyse og finner at 400 av dem rapporterte utro mot sine skatter (40 prosent). Hun legger til hennes feilmargin og rapporter, "Basert på min undersøkelse data, vil 40 prosent av amerikanerne jukse på sine skatter, pluss eller minus tre prosentpoeng."

Nå holder telefonen, Jenny. Hun bare vet hva de 1000 menneskene som returnerte undersøkelsen sa. Hun har ingen anelse om hva de andre 3000 sa folk. Og her er kicker: Hvorvidt noen svarer på en undersøkelse er ofte relatert til grunnen undersøkelsen blir gjort Det er ikke en tilfeldig ting.. Disse nonrespondents (folk som ikke responderer på en undersøkelse) bære mye vekt i forhold til hva de ikke tar deg tid til å fortelle deg.

For argumentets skyld anta at 2000 av de som opprinnelig fikk undersøkelsen var ubehagelig med spørsmålet fordi de jukse på sine skatter, og de ønsker ikke at noen skal vite om det, så de kastet undersøkelsen i søpla . Anta at de andre 1000 mennesker ikke jukse på sine skatter, slik at de ikke trodde det var et problem, og kom ikke tilbake undersøkelsen. Hvis disse to scenariene var sant, ville resultatet se slik ut:

Bedragere = 400 (kartlagt) + 2000 (nonrespondents) = 2400

Disse resultatene heve den totale andelen av bedragere til 2400 delt på 4000 - 60 prosent. Det er en enorm forskjell!

Du kunne gå helt den andre veien med de 3000 nonrespondents. Du kan anta at ingen av dem jukse, men de bare ikke ta deg tid til å si det. Hvis du visste dette info, vil du få 600 (kartlagt) + 3000 (nonrespondents) = 3.600 noncheaters. Ut av 4000 kartlagt, er dette 90 prosent. Sannheten er sannsynlig å være et sted mellom de to foregående eksemplene, men nonrespondents gjør det også vanskelig å si.

Og det verste er at formlene Jenny bruker for feilmarginen ikke vet at den informasjonen hun satt i dem er basert på forutinntatte data, så hennes rapportert tre prosent feilmargin er galt. Formlene lykkelig skru ut resultater uansett hva. Det er opp til deg å sørge for at det du putter inn i formlene er god, ren info.

Får 1,000 resultater når du sender ut 4000 spørreundersøkelser er ikke på langt nær så godt som å få 1,000 resultater når du sender ut 1000 undersøkelser (eller 100 resultater fra 100 undersøkelser). Planlegg undersøkelse basert på hvor mye oppfølging du kan gjøre med folk for å få jobben gjort, og hvis det tar en mindre utvalgsstørrelse, så gjør det. Minst resultatet har en bedre sjanse til å være statistisk korrekt.