Centrinė tendencija prieš dispersiją
Aprašomojoje ir išvadinėje statistikoje naudojami keli indeksai, apibūdinantys duomenų rinkinį, atitinkantį jo pagrindinę tendenciją, sklaidą ir iškrypimą: trys svarbiausios savybės, lemiančios santykinę duomenų rinkinio pasiskirstymo formą.
Kas yra pagrindinė tendencija?
Centrinė tendencija reiškia ir nustato verčių pasiskirstymo centrą. Vidurkis, režimas ir mediana yra dažniausiai naudojami rodikliai, apibūdinantys pagrindinę duomenų rinkinio tendenciją. Jei duomenų rinkinys yra simetriškas, tada duomenų rinkinio mediana ir vidurkis sutampa.
Atsižvelgiant į duomenų rinkinį, vidurkis apskaičiuojamas imant visų duomenų reikšmių sumą ir padalijant ją iš duomenų skaičiaus. Pavyzdžiui, 10 žmonių svoris (kilogramais) yra 70, 62, 65, 72, 80, 70, 63, 72, 77 ir 79. Tada vidutinis dešimties žmonių svoris (kilogramais) gali būti apskaičiuojamas taip. Svorių suma yra 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Vidurkis=(suma) / (duomenų skaičius)=710 / 10=71 (kilogramais). Suprantama, kad nuokrypiai (duomenų taškai, kurie nukrypsta nuo įprastos tendencijos) turi įtakos vidurkiui. Taigi, jei yra nuokrypių, vien tik vidurkis nesuteiks teisingo vaizdo apie duomenų rinkinio centrą.
Mediana yra duomenų taškas, esantis tiksliai duomenų rinkinio viduryje. Vienas iš būdų, kaip apskaičiuoti medianą, yra išdėstyti duomenų taškus didėjančia tvarka, o tada rasti duomenų tašką viduryje. Pavyzdžiui, jei kartą užsakytas ankstesnis duomenų rinkinys atrodo taip: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Todėl (70+72)/2=71 yra viduryje. Iš to matyti, kad mediana duomenų rinkinyje nebūtinai turi būti. Išskirtinių verčių buvimas medianai įtakos neturi. Taigi mediana pasitarnaus kaip geresnis centrinės tendencijos matas, kai yra nuokrypių.
Režimas yra dažniausiai pasitaikanti reikšmė duomenų rinkinyje. Ankstesniame pavyzdyje reikšmės 70 ir 72 pasitaiko du kartus, taigi, abu yra režimai. Tai rodo, kad kai kuriuose skirstiniuose yra daugiau nei viena modalinė reikšmė. Jei yra tik vienas režimas, duomenų rinkinys yra vienarūšis, šiuo atveju duomenų rinkinys yra bimodalinis.
Kas yra dispersija?
Dispersija yra duomenų sklaidos apie paskirstymo centrą kiekis. Diapazonas ir standartinis nuokrypis yra dažniausiai naudojami dispersijos matai.
Diapazonas yra tiesiog didžiausia vertė atėmus mažiausią reikšmę. Ankstesniame pavyzdyje didžiausia reikšmė yra 80, o mažiausia – 62, taigi diapazonas yra 80–62=18. Tačiau diapazonas nepateikia pakankamo vaizdo apie dispersiją.
Norint apskaičiuoti standartinį nuokrypį, pirmiausia apskaičiuojami duomenų reikšmių nuokrypiai nuo vidurkio. Šakninis kvadratinis nuokrypių vidurkis vadinamas standartiniu nuokrypiu. Ankstesniame pavyzdyje atitinkami nuokrypiai nuo vidurkio yra (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 - 71)=-1, (63 - 71)=-8, (72 - 71)=1, (77 - 71)=6 ir (79 - 71)=8. nuokrypio kvadratai yra (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Standartinis nuokrypis yra √(366/10)=6,05 (kilogramais). Jei duomenų rinkinys nėra labai iškreiptas, iš to galima daryti išvadą, kad didžioji dalis duomenų yra intervale 71±6,05, ir taip yra šiame konkrečiame pavyzdyje.
Kuo skiriasi centrinė tendencija ir sklaida?
• Centrinė tendencija reiškia ir nustato verčių pasiskirstymo centrą
• Dispersija yra duomenų sklaidos apie duomenų rinkinio centrą kiekis.