Duomenų gavybos ir duomenų saugyklos skirtumas

Duomenų gavybos ir duomenų saugyklos skirtumas
Duomenų gavybos ir duomenų saugyklos skirtumas

Video: Duomenų gavybos ir duomenų saugyklos skirtumas

Video: Duomenų gavybos ir duomenų saugyklos skirtumas
Video: Huawei IDEOS OFFICIAL promo video 2010 2024, Liepa
Anonim

Duomenų gavyba prieš duomenų saugyklą

Duomenų gavyba ir duomenų saugykla yra labai galingi ir populiarūs duomenų analizės metodai. Vartotojai, kurie yra linkę į statistiką, naudoja duomenų gavybą. Jie naudoja statistinius modelius, kad ieškotų paslėptų duomenų šablonų. Duomenų kasėjai nori rasti naudingų ryšių tarp skirtingų duomenų elementų, o tai galiausiai yra pelninga įmonėms. Tačiau, kita vertus, duomenų ekspertai, galintys tiesiogiai analizuoti verslo dimensijas, dažniausiai naudoja duomenų saugyklas.

Duomenų gavyba taip pat žinoma kaip žinių atradimas duomenyse (KDD). Kaip minėta aukščiau, tai kompiuterių mokslo sritis, nagrinėjanti anksčiau nežinomos ir įdomios informacijos ištraukimą iš neapdorotų duomenų. Eksponentiškai didėjant duomenų skaičiui, ypač tokiose srityse kaip verslas, duomenų gavyba tapo labai svarbia priemone, skirta šiam didžiuliam duomenų turui paversti verslo žvalgybos informaciją, nes rankiniu būdu išgauti šablonus per pastaruosius kelis dešimtmečius tapo neįmanoma. Pavyzdžiui, šiuo metu jis naudojamas įvairioms programoms, tokioms kaip socialinių tinklų analizė, sukčiavimo aptikimas ir rinkodara. Duomenų gavyba paprastai atlieka šias keturias užduotis: grupavimą, klasifikavimą, regresiją ir susiejimą. Klasterizavimas – tai panašių grupių identifikavimas iš nestruktūruotų duomenų. Klasifikavimas yra mokymosi taisyklės, kurios gali būti taikomos naujiems duomenims ir paprastai apima šiuos veiksmus: išankstinis duomenų apdorojimas, modeliavimo projektavimas, mokymasis / funkcijų pasirinkimas ir įvertinimas / patvirtinimas. Regresija yra funkcijų su minimaliomis paklaidomis radimas modeliuojant duomenis. O asociacija ieško ryšių tarp kintamųjų. Duomenų gavyba paprastai naudojama atsakant į klausimus, pavyzdžiui, kokie yra pagrindiniai produktai, galintys padėti gauti didelį pelną kitais metais „Wal-Mart“?

Kaip minėta pirmiau, duomenų saugykla taip pat naudojama duomenims analizuoti, tačiau skirtinguose naudotojų grupėse ir turint omenyje šiek tiek kitokį tikslą. Pavyzdžiui, kalbant apie mažmeninės prekybos sektorių, duomenų saugyklos naudotojams labiau rūpi, kokie pirkiniai yra populiarūs tarp klientų, todėl analizės rezultatai gali padėti klientui gerinant klientų patirtį. Tačiau duomenų kasėjai pirmiausia iškelia hipotezę, pavyzdžiui, kurie klientai perka tam tikros rūšies produktą, ir analizuoja duomenis, kad patikrintų hipotezę. Duomenų saugojimą galėtų atlikti stambus mažmenininkas, kuris iš pradžių savo parduotuves aprūpina tokio paties dydžio produktais, kad vėliau išsiaiškintų, kad Niujorko parduotuvės mažesnio dydžio atsargas parduoda daug greičiau nei Čikagos parduotuvėse. Taigi, žiūrėdamas į šį rezultatą, mažmenininkas gali įsigyti Niujorko parduotuvės mažesnių dydžių, palyginti su Čikagos parduotuvėmis.

Taigi, kaip aiškiai matote, šios dvi analizės rūšys plika akimi atrodo vienodos. Abu nerimauja dėl didėjančio pelno, remiantis istoriniais duomenimis. Tačiau, žinoma, yra esminių skirtumų. Paprastais žodžiais tariant, duomenų gavyba ir duomenų saugykla yra skirtos įvairių tipų analizėms, tačiau neabejotinai skirtingų tipų vartotojams. Kitaip tariant, duomenų gavyba ieško koreliacijų, šablonų, patvirtinančių statistinę hipotezę. Tačiau duomenų saugykla atsako į palyginti platesnį klausimą ir pjausto duomenis nuo tada, kad atpažintų būdus, kaip tobulėti ateityje.

Rekomenduojamas: