Hvordan bruke Søk om å opprette Plate tiner i R

December 24  by Eliza

Du bruker tapply () for å opprette tabell sammendrag av data i R. Med tapply (), kan du enkelt lage sammendrag av undergrupper i data. Denne funksjonen tar tre argumenter:

  • X: En vektor
  • INDEX: En faktor eller liste over faktorer
  • MORO: En funksjon

For eksempel beregne gjennomsnittet sepal lengde i datasettet iris:

> Tapply (iris $ Sepal.Length, iris $ Arter, mener)
setosa versicolor virginica
5,006 5,936 6,588

Med denne korte linje med kode, har du noen kraftige saker. Du forteller R for å ta Sepal.Length kolonnen, dele den i henhold til Arter, og deretter beregne gjennomsnittet for hver gruppe.

Dette er et viktig uttrykk for å skrive kode i R, og det vanligvis går under navnet Split, Bruk, og Kombiner (SAC). I dette tilfelle splittes man en vektor i grupper, bruke en funksjon til hver gruppe, og deretter kombinere resultatet inn i en vektor.

Selvfølgelig bruker den med () -funksjonen, kan du skrive din linje med kode i en litt mer lesbar måte:

> Med (iris, tapply (Sepal.Length, Species, mener))
setosa versicolor virginica
5,006 5,936 6,588

Ved hjelp tapply (), kan du også lage mer komplekse tabeller for å oppsummere dine data. Du gjør dette ved hjelp av en liste som din INDEX argument.

Hvordan bruke tapply () for å skape høyere-dimensjonale tabeller

For eksempel prøve å oppsummere data ramme mtcars, en innebygd dataramme med data om motor-bilmotorer og ytelse. Som med ethvert objekt, kan du bruke str () for å inspisere sin struktur:

> str (mtcars)

Variabelen am er en numerisk vektor som angir om motoren har en automatisk (0) eller manuell (1) girkasse. Fordi dette ISNA € ™ t veldig beskrivende, begynne med å lage et nytt objekt, biler, som er en kopi av mtcars, og endre am kolonnen til å være en faktor:

> biler <- innenfor (mtcars,
+ Am <- faktor (am, nivåer = 0: 1, etiketter = c ("Automatic", "Manuell"))
+)

Nå bruker tapply () for å finne gjennomsnitts miles per gallon (mpg) for hver type girkasse:

> Med (biler, tapply (mpg, jeg mener))
Automatisk Manual
17,14737 24,39231

Ja, youâ € ™ re riktig. Dette er fortsatt kun en endimensjonal tabell. Nå, prøv å gjøre en todimensjonal tabell med den type girkasse (am) og antall gir (utstyr):

> Med (biler, tapply (mpg, oversikt (gear, AM), mener))
Automatisk Manual
3 16,10667 NA
4 21,05000 26,275
5 NA 21,380

Du bruker tapply () for å opprette tabell sammendrag av data. Dette er en litt lik bordet () -funksjonen. Imidlertid kan tabellen () bare opprette krysstabeller (det vil si, tabeller av tellinger), mens med tapply () kan du angi hvilken som helst funksjon som samlingsfunksjonen. Med andre ord, med tapply (), kan du beregne teller, midler, eller noen annen verdi.

Hvis du ønsker å oppsummere statistikk på en enkelt vektor, tapply () er veldig nyttig og rask å bruke.

Hvordan bruke aggregat ()

En annen R-funksjon som gjør noe veldig likt er samlet ():

> Med (biler, samlet (mpg, oversikt (utstyr = gear, am = am), mener))
utstyr am x
1 3 Automatisk 16,10667
2 4 Automatisk 21,05000
3 4 Manual 26,27500
4 5 Manuell 21,38000

Deretter tar du aggregat () til nye høyder ved hjelp av formel-grensesnittet.