KDD ir duomenų gavybos skirtumas

KDD ir duomenų gavybos skirtumas
KDD ir duomenų gavybos skirtumas

Video: KDD ir duomenų gavybos skirtumas

Video: KDD ir duomenų gavybos skirtumas
Video: Likvidumas ir kodėl jis yra svarbus finansų rinkoms? 2024, Lapkritis
Anonim

KDD prieš duomenų gavybą

KDD (žinių atradimas duomenų bazėse) yra kompiuterių mokslo sritis, apimanti priemones ir teorijas, padedančias žmonėms išgauti naudingą ir anksčiau nežinomą informaciją (t. y. žinias) iš didelių suskaitmenintų duomenų rinkinių. KDD susideda iš kelių žingsnių, o duomenų gavyba yra vienas iš jų. Duomenų gavyba – tai konkretaus algoritmo taikymas, siekiant iš duomenų išgauti šablonus. Nepaisant to, KDD ir duomenų gavyba naudojami pakaitomis.

Kas yra KDD?

Kaip minėta, KDD yra kompiuterių mokslo sritis, nagrinėjanti anksčiau nežinomos ir įdomios informacijos ištraukimą iš neapdorotų duomenų. KDD yra visas procesas, kurio metu bandoma suprasti duomenis kuriant tinkamus metodus ar metodus. Šis procesas susijęs su žemo lygio duomenų atvaizdavimu į kitas kompaktiškesnes, abstraktesnes ir naudingesnes formas. Tai pasiekiama kuriant trumpas ataskaitas, modeliuojant duomenų generavimo procesą ir kuriant nuspėjamuosius modelius, galinčius numatyti ateities atvejus. Dėl eksponentinio duomenų augimo, ypač tokiose srityse, kaip verslas, KDD tapo labai svarbiu procesu, paverčiančiu šį didelį duomenų turtą į verslo žvalgybą, nes rankiniu būdu išgauti šablonus per pastaruosius kelis dešimtmečius tapo neįmanoma. Pavyzdžiui, šiuo metu jis naudojamas įvairioms programoms, tokioms kaip socialinių tinklų analizė, sukčiavimo aptikimas, mokslas, investicijos, gamyba, telekomunikacijos, duomenų valymas, sportas, informacijos gavimas ir daugiausia rinkodaros tikslais. KDD paprastai naudojamas atsakyti į klausimus, pavyzdžiui, kokie yra pagrindiniai produktai, kurie kitais metais gali padėti gauti didelį pelną „Wal-Mart“?Šis procesas susideda iš kelių žingsnių. Pradedama nuo taikymo srities ir tikslo supratimo, o po to sukuriant tikslinį duomenų rinkinį. Po to seka duomenų valymas, išankstinis apdorojimas, mažinimas ir projektavimas. Kitas veiksmas yra duomenų gavybos naudojimas (paaiškinta toliau) modeliui nustatyti. Galiausiai, atrastos žinios yra įtvirtinamos vizualizuojant ir (arba) interpretuojant.

Kas yra duomenų gavyba?

Kaip minėta, duomenų gavyba yra tik žingsnis visame KDD procese. Yra du pagrindiniai duomenų gavybos tikslai, kaip apibrėžta programos tikslu, būtent patikrinimas arba atradimas. Tikrinimas – tai vartotojo hipotezės apie duomenis patikrinimas, o atradimas automatiškai randa įdomių modelių. Yra keturios pagrindinės duomenų gavybos užduotys: grupavimas, klasifikavimas, regresija ir susiejimas (apibendrinimas). Klasterizavimas – tai panašių grupių identifikavimas iš nestruktūruotų duomenų. Klasifikavimas yra mokymosi taisyklės, kurios gali būti taikomos naujiems duomenims. Regresija yra funkcijų su minimaliomis paklaidomis radimas modeliuojant duomenis. O asociacija ieško ryšių tarp kintamųjų. Tada reikia pasirinkti konkretų duomenų gavybos algoritmą. Priklausomai nuo tikslo, galima pasirinkti skirtingus algoritmus, pvz., tiesinę regresiją, logistinę regresiją, sprendimų medžius ir „Naive Bayes“. Tada ieškoma interesų modelių viena ar keliomis reprezentacinėmis formomis. Galiausiai modeliai vertinami naudojant nuspėjamąjį tikslumą arba suprantamumą.

Kuo skiriasi KDD ir duomenų gavyba?

Nors du terminai KDD ir duomenų gavyba dažnai vartojami pakaitomis, jie nurodo dvi susijusias, tačiau šiek tiek skirtingas sąvokas. KDD yra bendras žinių iš duomenų gavimo procesas, o duomenų gavyba yra žingsnis KDD procese, kuris susijęs su duomenų šablonų identifikavimu. Kitaip tariant, duomenų gavyba yra tik konkretaus algoritmo taikymas, pagrįstas bendru KDD proceso tikslu.

Rekomenduojamas: