Hvordan Beregn Multippel lineær regresjon for Six Sigma

April 7  by Eliza

Hva bør Six Sigma utøvere gjøre med alle situasjoner der mer enn ett X påvirker Y? Du bruker multippel lineær regresjon. Tross alt, er den slags situasjon mer vanlig enn en enkelt påvirke variabelen er. Når du arbeider for å skape en ligning som omfatter mer enn én variabel - som Y = f (X 1, X 2, X n...).

Den generelle formen av multippel lineær regresjonsmodell er bare en forlengelse av den enkle lineære regresjonsmodellen For eksempel, hvis du har et system hvor X 1 og X 2 både bidra til Y, blir multippel lineær regresjonsmodell

Y i = β 0 + β 1 X 1 + β 11 X 1 2 + β 2 X 2 + β 22 X 2 2 + β 12 X 1 X 2 + ε

Denne ligningen har fem forskjellige typer vilkår:

  • β 0: Dette begrepet er den samlede effekten Det setter startnivå for alle andre effekter, uavhengig av hva X variablene er satt til..
  • β jeg x I: De β 1 X 1 og β 2 X 2 stykker er de viktigste effekter vilkår i ligningen. Som i den enkle lineære regresjonsmodellen, disse betingelsene fange lineær effekt hver X i har på utgangen Y. størrelsen og retningen av hver av disse virkningene er fanget i den tilhørende β I-koeffisientene.
  • β ii X i 2: β 11 X 1 2 og β 22 X 2 2 er det andre-ordens eller kvadrerte virkninger for hver av X s. Fordi den variable heves til den andre strøm, er effekten kvadratiske snarere enn lineær. Størrelsen og retningen av hver av disse andre-ordens effekter er indikert med de tilhørende β ii koeffisienter.
  • β 12 X 1 X 2:. Denne effekten kalles interaksjonseffekt denne periode gir inngangsvariabler for å ha en interaktiv eller kombinerte virkning på utfallet Y. Igjen, størrelsen og retningen av interaksjonseffekt blir fanget i β 12 koeffisient.
  • ε: Dette begrepet står for all den tilfeldige variasjonen som de andre vilkårene ikke kan forklare. ε er en normalfordeling med sitt senter på null.

Ligningen for multippel lineær regresjon kan passe mye mer enn en enkel linje; det kan romme kurver, tredimensjonale flater, og til og med abstrakte relasjoner i n-dimensjonale plass! Multippel lineær regresjon kan håndtere omtrent alt du kaster på den. Fremgangsmåten for å utføre multippel lineær regresjon følger samme mønster som enkel lineær regresjon gjør:

  1. Samle data for X s og Y.
  2. Beregne multiple lineære regresjonskoeffisienter.

    Når mer enn én variabel X, ligningene for utledning av de Ss bli svært komplisert og svært tidkrevende. Du definitivt ønsker å bruke en statistisk analyse programvare verktøy for å beregne disse ligningene automatisk for deg. De Ss bare stikke rett ut. Ellers går kjøpe en boks med nummer to blyanter og brette opp ermene!

  3. Sjekk restverdier for å bekrefte at de oppfyller de upfront forutsetningene for multippel lineær regresjonsmodell.

    Kontrollere at restene er normale er kritisk viktig. Om variasjonen i residualene ikke er sentrert på null og variasjonen er ikke tilfeldig og normal, har start forutsetningene for multippel lineær regresjonsmodell ikke er oppfylt, og modellen er ugyldig.

  4. Utføre statistiske tester for å se hvilken form av flere lineære regresjonsligningen vilkårene er betydelig (og bør holdes i modellen), og som er ubetydelig (og må fjernes).

    Noen begreper i den multiple regresjonsligningen er ikke signifikante. Du finne ut hvilke som ved å utføre en F-test for hvert ledd i ligningen. Når variasjonen bidrag av en ligning sikt er lite i forhold til rest variasjon, vil dette ordet ikke passere F-test, og du kan fjerne den fra ligningen.

    Målet ditt er å forenkle regresjonsligningen så mye som mulig samtidig som du maksimerer R2 metriske av passform. Vanligvis er enklere alltid bedre. Så hvis du finner to regresjonsligningene som begge har samme R2 verdi, du ønsker å bosette seg på den med færrest, enkleste form.

    Vanligvis er de første til å gå høyere ordens ledd. Det er bare mindre sjanse for en kvadratisk term eller et interaksjonsledd å være statistisk signifikant.

  5. Beregne slutt koeffisienten R 2 for multippel lineær regresjonsmodell.

    Bruk R2 metrisk å kvantifisere hvor mye av den observerte variasjonen den endelige ligningen forklarer.

Med god analyse programvare blir mer tilgjengelig, kraften i multippel lineær regresjon er tilgjengelig for et voksende publikum. Mange mer avanserte statistiske analysen programvareverktøy selv har automatisert algoritmer som søker gjennom de ulike kombinasjoner av liknings vilkår samtidig maksimere R2.