Hva er Data Mining?

January 8  by Eliza

Data mining anvender en relativt stor mengde av datakraft som opererer på et stort sett av data for å bestemme regulariteter og forbindelser mellom datapunktene. Algoritmer som benytter teknikker fra statistikk, maskinlæring og mønstergjenkjenning brukes til å søke store databaser automatisk. Data mining er også kjent som Kunnskapsdiscovery i databaser (KDD).

Som betegnelsen kunstig intelligens, er data mining en samlebetegnelse som kan anvendes på en rekke forskjellige aktiviteter. I bedriftens verden, er data mining brukes oftest for å bestemme retningen av trender og forutse fremtiden. Det er ansatt for å bygge modeller og beslutningsstøttesystemer som gir folk informasjon de kan bruke. Data mining tar en front-linje rolle i kampen mot terrorisme. Det ble angivelig brukt til å bestemme lederen for 9/11 angrepene.

Data gruvearbeidere er statistikere som bruker teknikker med navn som nær nabo-modeller, betyr k-clustering, holdout metode, k-fold kryssvalidering, den leave-one-out-metoden, og så videre. Regression teknikker brukes til å trekke irrelevante mønstre, slik at bare nyttig informasjon. Uttrykket Bayesian sees ofte i felten, refererer til en klasse av slutningsteknikker som forutsier sannsynligheten for fremtidige hendelser ved å kombinere tidligere sannsynligheter og sannsynligheter basert på betingede hendelser. Spamfiltrering er uten tvil en form for data mining, som automatisk bringer relevante meldinger til overflaten fra et kaotisk hav av phishing-forsøk og Viagra plasser.

Beslutningstrær brukes til å filtrere fjell av data. I en avgjørelse tre, alle data går gjennom en inngang node, hvor det står overfor et filter som skiller dataene i bekker avhengig av dens egenskaper. For eksempel er data om forbrukernes adferd sannsynlig å bli filtrert på grunnlag av demografiske faktorer. Data mining er ikke først og fremst om fancy grafer og visualiseringsteknikker, men det gjør ansette dem til å vise hva den har funnet. Det er kjent at vi kan absorbere mer statistisk informasjon visuelt enn verbalt og dette formatet for presentasjonen kan være svært overbevisende og kraftig dersom de brukes i riktig sammenheng.

Som vår sivilisasjon blir stadig mer data-mettet og sensorer er fordelt i hopetall til våre lokale miljøer, vil vi utilsiktet oppdage ting som kan være savnet på første pass over. Data mining vil la oss korrigere disse feilene og oppdage nye innsikter basert på tidligere data, noe som gir oss mer bang for våre datalagring bukk.

  • Spamfiltrering kan betraktes som en form for data mining.
  • Informasjonen som samles inn i løpet av data mining blir ofte presentert som diagrammer eller grafer.