Hierarchinis vs dalinis grupavimas
Klasterizavimas yra mašininio mokymosi metodas, skirtas duomenims analizuoti ir suskirstyti į panašių duomenų grupes. Šios grupės arba panašių duomenų rinkiniai yra žinomi kaip klasteriai. Klasterių analizė nagrinėja grupavimo algoritmus, kurie gali automatiškai identifikuoti grupes. Hierarchinis ir dalinis yra dvi tokios klasterizacijos algoritmų klasės. Hierarchiniai klasterizacijos algoritmai suskaido duomenis į klasterių hierarchiją. Paricialiniai algoritmai padalija duomenų rinkinį į tarpusavyje nesusijusius skaidinius.
Kas yra hierarchinis grupavimas?
Hierarchiniai klasterizavimo algoritmai pakartoja ciklą, kai sujungiamos mažesnės grupės į didesnius arba padalijami didesni klasteriai į mažesnius. Bet kuriuo atveju ji sukuria klasterių hierarchiją, vadinamą dendograma. Aglomeracinėje klasterizacijos strategijoje naudojamas metodas „iš apačios į viršų“sujungiant grupes į didesnius, o dalijančioje klasterizacijos strategijoje naudojamas metodas „iš viršaus į apačią“skaidant į mažesnius. Paprastai gobšus metodas naudojamas sprendžiant, kurios didesnės / mažesnės grupės naudojamos sujungimui / padalijimui. Euklido atstumas, Manheteno atstumas ir kosinuso panašumas yra vieni dažniausiai naudojamų skaitmeninių duomenų panašumo metrikų. Neskaitiniams duomenims naudojama metrika, pvz., Hamingo atstumas. Svarbu pažymėti, kad hierarchiniam klasterizavimui nereikia faktinių stebėjimų (atvejų), nes pakanka tik atstumų matricos. Dendograma yra vaizdinis klasterių atvaizdas, kuris labai aiškiai parodo hierarchiją. Priklausomai nuo dendogramos iškirpimo lygio, vartotojas gali gauti skirtingą grupavimą.
Kas yra dalinis grupavimas?
Padalinio grupavimo algoritmai generuoja įvairius skaidinius ir įvertina juos pagal tam tikrus kriterijus. Jie taip pat vadinami nehierarchiniais, nes kiekvienas egzempliorius yra tiksliai vienoje iš k vienas kitą nepaneigiančių grupių. Kadangi tik vienas klasterių rinkinys yra tipinio dalinio klasterizacijos algoritmo išvestis, vartotojas turi įvesti norimą grupių skaičių (dažniausiai vadinamas k). Vienas iš dažniausiai naudojamų dalinio klasterizavimo algoritmų yra k-means klasterizacijos algoritmas. Prieš pradėdamas vartotojas turi nurodyti grupių skaičių (k), o algoritmas pirmiausia inicijuoja k skaidinių centrus (arba centroidus). Trumpai tariant, k-means klasterizacijos algoritmas tada priskiria narius pagal dabartinius centrus ir iš naujo įvertina centrus pagal dabartinius narius. Šie du žingsniai kartojami tol, kol bus optimizuota tam tikra klasterio panašumo tikslo funkcija ir tarpgrupinio skirtumo tikslo funkcija. Todėl protingas centrų inicijavimas yra labai svarbus veiksnys norint gauti kokybiškus dalinio klasterizacijos algoritmų rezultatus.
Kuo skiriasi hierarchinis ir dalinis grupavimas?
Hierarchinis ir dalinis grupavimas turi esminių veikimo trukmės, prielaidų, įvesties parametrų ir gaunamų grupių skirtumų. Paprastai dalinis grupavimas yra greitesnis nei hierarchinis grupavimas. Hierarchiniam klasterizavimui reikalingas tik panašumo matas, o daliniam klasterizavimui reikia tvirtesnių prielaidų, tokių kaip klasterių skaičius ir pradiniai centrai. Hierarchiniam klasterizavimui nereikia jokių įvesties parametrų, o dalinio klasterizavimo algoritmams reikalingas grupių skaičius, kad būtų galima pradėti veikti. Hierarchinis klasterizavimas grąžina daug prasmingesnį ir subjektyvesnį klasterių padalijimą, tačiau dėl dalinio klasterizavimo susidaro tiksliai k grupių. Hierarchiniai grupavimo algoritmai labiau tinka kategoriškiems duomenims tol, kol galima atitinkamai apibrėžti panašumo matą.