Hvordan bruke flettingen () Funksjon med datasett i R

February 10  by Eliza

I R bruker du flettingen () -funksjonen til å kombinere datapakker. Denne kraftige funksjonen forsøker å identifisere kolonner eller rader som er felles mellom de to ulike datapakker.

Hvordan bruke flette å finne skjæringspunktet mellom data

Den enkleste formen for merge () finner skjæringspunktet mellom to forskjellige datasett. Med andre ord, for å lage en dataramme som består av de stater som er kald samt store, bruke standardversjonen av flette ():

> Merge (cold.states, large.states)
Nevne Frost-området
En Alaska 152 566 432
2 Colorado 166 103 766
3 Montana 155 145 587
4 Nevada 188 109 889

Hvis du er kjent med en database språk som SQL, kan du ha gjettet at flettingen () er svært lik en database delta. Dette er faktisk til saken og de ulike argumentene fusjonere () lar deg utføre naturlig tiltrer, samt venstre, høyre, og full ytre sammenføyninger.

Flettingen () -funksjonen tar ganske stort antall argumenter. Disse argumentene kan se ganske skremmende før du skjønner at de danner et mindre antall relaterte argumenter:

  • x: en dataramme.
  • y: en dataramme.
  • ved, by.x, by.y: Navnene på kolonnene som er felles for både x og y. Standard er å bruke kolonner med vanlige navn mellom de to datarammer.
  • alt, all.x, all.y: Logiske verdier som angir hvilken type flettingen. Standardverdien er alt = false (som betyr at bare de samsvarende rader er returnert).

Det siste gruppen av argumenter - alt, all.x og all.y - fortjener noen forklaring. Disse argumentene bestemme hvilken type flette som vil skje.

Hvordan å forstå de ulike typer flette

Flettingen () funksjonen gjør fire måter å kombinere data:

  • Natural delta: For å holde bare rader som oppfyller fra datarammer, angi argumentet alt = false.
  • Full ytre delta: For å beholde alle radene fra begge datarammer, oppgi alle = TRUE.
  • Venstre ytre delta: For å inkludere alle radene av din dataramme x og bare de fra y som passer, angi all.x = TRUE.
  • Høyre ytre delta: For å inkludere alle radene av din dataramme y og bare de fra x den kampen, angi all.y = TRUE.

    Hvordan bruke flettingen () Funksjon med datasett i R

Hvordan finne union (full ytre delta)

Retur til eksempler på amerikanske delstater, for å utføre en fullstendig fletting av kalde og store stater, bruk merge og oppgi alle = SANT:

> flette (cold.states, large.states, alt = sant)
Nevne Frost-området
En Alaska 152 566 432
2 Arizona NA 113417
3 California NA 156361
....
13 Texas NA 262134
14 Vermont 168 NA
15 Wyoming 173 NA

Begge datarammer har en variabel navn, så R kamper sakene basert på navnene på statene. Variabelen Frost kommer fra data ramme cold.states, og den variable området kommer fra data ramme large.states.

Merk at dette utfører komplett flettingen og fyller kolonner med NA verdier der det er ingen treff på data.