Duomenų gavyba vs OLAP
Duomenų gavybos ir OLAP yra dvi iš įprastų verslo žvalgybos (BI) technologijų. Verslo žvalgyba reiškia kompiuterinius metodus, skirtus identifikuoti ir išgauti naudingą informaciją iš verslo duomenų. Duomenų gavyba yra kompiuterių mokslo sritis, skirta įdomių modelių išgavimui iš didelių duomenų rinkinių. Jis sujungia daugybę dirbtinio intelekto, statistikos ir duomenų bazių valdymo metodų. OLAP (internetinis analitinis apdorojimas), kaip rodo pavadinimas, yra kelių dimensijų duomenų bazių užklausų rinkinys.
Duomenų gavyba taip pat žinoma kaip žinių atradimas duomenyse (KDD). Kaip minėta aukščiau, tai kompiuterių mokslo sritis, nagrinėjanti anksčiau nežinomos ir įdomios informacijos ištraukimą iš neapdorotų duomenų. Eksponentiškai didėjant duomenų skaičiui, ypač tokiose srityse kaip verslas, duomenų gavyba tapo labai svarbia priemone, skirta šiam didžiuliam duomenų turui paversti verslo žvalgybos informaciją, nes rankiniu būdu išgauti šablonus per pastaruosius kelis dešimtmečius tapo neįmanoma. Pavyzdžiui, šiuo metu jis naudojamas įvairioms programoms, tokioms kaip socialinių tinklų analizė, sukčiavimo aptikimas ir rinkodara. Duomenų gavyba paprastai atlieka šias keturias užduotis: grupavimą, klasifikavimą, regresiją ir susiejimą. Klasterizavimas – tai panašių grupių identifikavimas iš nestruktūruotų duomenų. Klasifikavimas yra mokymosi taisyklės, kurios gali būti taikomos naujiems duomenims ir paprastai apima šiuos veiksmus: išankstinis duomenų apdorojimas, modeliavimo kūrimas, mokymasis / funkcijų pasirinkimas ir įvertinimas / patvirtinimas. Regresija yra funkcijų su minimaliomis paklaidomis radimas modeliuojant duomenis. O asociacija ieško ryšių tarp kintamųjų. Duomenų gavyba paprastai naudojama atsakant į klausimus, pavyzdžiui, kokie yra pagrindiniai produktai, galintys padėti gauti didelį pelną kitais metais „Wal-Mart“.
OLAP yra sistemų klasė, teikianti atsakymus į daugiamates užklausas. Paprastai OLAP naudojamas rinkodarai, biudžeto sudarymui, prognozavimui ir panašioms programoms. Savaime suprantama, kad OLAP naudojamos duomenų bazės yra sukonfigūruotos sudėtingoms ir ad hoc užklausoms, turint omenyje greitą našumą. Paprastai matrica naudojama OLAP išvesties rodymui. Eilutes ir stulpelius sudaro užklausos matmenys. Jie dažnai naudoja kelių lentelių agregavimo metodus, kad gautų suvestines. Pavyzdžiui, galima sužinoti apie šių metų pardavimus Wal-Mart, palyginti su praėjusiais metais? Kokios prognozės dėl pardavimų ateinantį ketvirtį? Ką galima pasakyti apie tendenciją žiūrint į procentinį pokytį?
Nors akivaizdu, kad duomenų gavyba ir OLAP yra panašūs, nes naudoja duomenis, kad įgytų informacijos, pagrindinis skirtumas atsiranda dėl to, kaip jie veikia su duomenimis. OLAP įrankiai teikia daugiamatę duomenų analizę ir pateikia duomenų santraukas, tačiau priešingai, duomenų gavyba daugiausia dėmesio skiria santykiams, modeliams ir duomenų rinkinio įtakoms. Tai yra OLAP susitarimas su agregavimu, kuris susiveda į duomenų veikimą per „sudėtį“, tačiau duomenų gavyba atitinka „padalijimą“. Kitas pastebimas skirtumas yra tas, kad nors duomenų gavybos įrankiai modeliuoja duomenis ir pateikia veiksmingąsias taisykles, OLAP realiuoju laiku atliks palyginimo ir kontrastavimo metodus pagal verslo dimensiją.