Hvordan Count Unik dataverdier i R

March 9  by Eliza

Å finne ut hvilke data kan være priset når man jobber i R, la oss € ™ s ta en titt på datasett mtcars. Denne innebygde datasettet beskriver drivstofforbruk og ti forskjellige design poeng fra 32 biler fra 1970-tallet. Den inneholder, i totalt, 11 variabler, men alle av dem er numeriske.

Selv om du kan jobbe med datarammen slik tilstand, kan noen variabler bli konvertert til en faktor fordi de har en begrenset mengde verdier.

Hvis du dona € ™ t vet hvor mange forskjellige verdier en variabel har, du kan få denne informasjonen i to enkle trinn:

  1. Få de unike verdiene i variabelen ved hjelp av unik ().
  2. Få lengden av den resulterende vektor ved hjelp length ().

Bruke sapply () -funksjonen, kan du gjøre dette for hele dataramme på en gang. Du søker en anonym funksjon som kombinerer både nevnte trinnene på hele dataramme, som dette:

> Sapply (mtcars, funksjon (x) lengde (unikt (x)))
mpg syl disp hk drat wt qsec vs am utstyr carb
25 3 27 22 22 29 30 2 2 3 6

Så ser det ut som variablene syl, vs, jeg kan gear, og carb dra nytte av en konvertering til faktor.

Du har 32 forskjellige observasjoner i at datasettet, slik at ingen av variablene har unike verdier bare.

Når skal behandle en variabel som en faktor avhenger litt på situasjonen, men som en generell regel, unngå mer enn ti forskjellige nivåer i en faktor, og prøv å ha minst fem verdier per nivå.