U praksi je uobičajeno da veliku količinu prikupljenih podataka grupiramo u razrede. Najčešće se radi o kontinuiranim podatcima, no mogu se grupirati i diskretni podatci. Pri tome pojedinačne vrijednosti podataka ponekad nisu poznate ili nam nisu važne.
Kako izvršiti grupiranje podataka?
Primjer 1.
Pravilnikom o zaštiti riba i drugih morskih organizama propisane su minimalne duljine riba ispod koje se ne smiju loviti, sakupljati, zadržavati na plovilu, prekrcavati, iskrcavati, prenositi, skladištiti, prodavati, izlagati ili nuditi na prodaju.
Provedeno je istraživanje na uzorku od srdela i dobiveni su sljedeći podatci o duljini.
Ovako prikazani podatci nepregledni su te nisu pogodni za analizu i donošenje zaključaka. Grupirat ćemo ih u razrede na sljedeći način.
Odredimo raspon uzorka.
Odaberimo odgovarajući broj razreda, primjerice 8.
Odredimo širinu razreda tako da podijelimo raspon s brojem razreda.
Zaokružimo na veći broj.
Odredimo granice razreda i napravimo tablicu frekvencija.
Napomena.
Broj razreda, odnosno širinu razreda, određujemo proizvoljno. Postoje neke preporuke, primjerice od 5 do 15 razreda, ovisno o broju podataka ili aproksimacije kao što je
Međutim, odabir će najviše ovisiti o preciznosti i simetričnosti raspodjele podataka (distribucije) koji želimo prikazati. Tako se može dogoditi da odabir ponovimo i više puta. Ponekad ćemo prvo odrediti širinu razreda, a onda izračunati broj razreda i odrediti granice. Preporuka je da donja granica razreda bude jednaka gornjoj granici prethodnog razreda.
Tablica frekvencija
Duljina srdele ( ) u | Frekvencija ( ) | Relativna frekvencija ( ) |
---|---|---|
Ukupno |
Prikažimo dane podatke i grafički. Koristit ćemo se histogramom frekvencija.
Koristeći se sljedećim interaktivnim predloškom, mijenjajte broj razreda te promatrajte izgled histograma.
Kako promjena broja razreda, a time i njegove širine, utječe na raspodjelu podataka? Pokušajte pri svakoj promjeni broja razreda protumačiti podatke u realnom kontekstu. Može li se manipulirati podatcima?
Uočimo da se najviše izmjerenih podataka o duljini srdela nalazi ondje gdje je najveća frekvencija, u razredu u kojem je
(u podjeli na 8 razreda).
Na osnovi istraživanja, na uzorku od
srdela, možemo reći da je duljina srdele najčešće između
i
Razred s najvećom frekvencijom nazivamo modalni razred.
Ponekad u tablicu frekvencija dodajemo stupac s relativnim frekvencijama u svrhu jednostavnije interpretacije ili uspoređivanja podataka.
Prema spomenutom pravilniku o zaštiti riba, ne smije se loviti srdela kraća od Relativnu frekvenciju od (izraženu u postotku) za razred interpretiramo: Oko ulovljenih srdela nedopuštene je duljine.
Ili, na primjer, zaključujemo da duljinu između
i
ima oko
ulovljenih srdela.
Relativna frekvencija omjer je frekvencije nekog podatka i ukupnog broja podataka.
Pišemo
Primjer 2.
U sljedećoj su tablici težine studentica jednog sveučilišta raspoređene u 7 razreda.
Težina (u ) Broj studentica Ukupno
Kada smo dobili podatke već grupirane u razrede, ne znamo stvarne vrijednosti tih podataka. Primjerice, znamo da se unutar razreda
nalaze težine
studentice, ali ne znamo njihove individualne težine, pa čak sve
studentice mogu imati
Međutim, razumno je pretpostaviti da će podatci biti ravnomjerno raspoređeni unutar intervala. U tom će slučaju sredina razreda nadomjestiti svaki podatak iz tog razreda, što će nam omogućiti određivanje aritmetičke sredine promatranog skupa podataka.
Dodajmo u gornju tablicu još dva stupca.
Težina ( ) u kg | Broj studentica ( ) | Sredina razreda ( ) | Umnožak ( ) |
---|---|---|---|
Ukupno |
Broj predstavlja procjenu ili aproksimaciju ukupne težine svih studentica. Tada je aproksimacija aritmetičke sredine jednaka broju
Aritmetičku sredinu grupiranih podataka određujemo prema pravilu
U sljedećoj su tablici podatci o visinama muškaraca.
Visina, ( ) | Broj muškaraca |
---|---|
Uočite da nisu svi razredi jednake širine.
Modalni razred jest
Procjena ukupne visine svih
muškaraca jednaka je
Aritmetička sredina izmjerenih visina približno je jednaka.
Prikazani podatci su .
Brojevi 2, 6, 10, 14, 18 na horizontalnoj osi predstavljaju
Povucite odgovarajuće elemente na njihova mjesta u priloženoj tablici.
U ovom se primjeru koristila kontinuirana varijabla koja je zaokružena na najbliži cijeli broj. To znači da je primjerice razred od 4 do 8 zapravo u granicama
do
a razred od 8 do 12 u granicama od
do
Ove se granice nazivaju korigirane ili precizne granice razreda.
Ako su gornje granice prethodnog razreda za jedinicu manje od donjih granica sljedećeg razreda, onda u tablicu frekvencija obično upisujemo i korigirane granice, a za računanje sredine razreda i raspona razreda koristimo se korigiranim granicama.
Dopunite rečenice.
Standardna devijacija je mjera podataka. Visoka vrijednost standardne devijacije pokazuje da su podatci prema sredini podataka. Niska vrijednost standardne devijacije pokazuje da su podatci oko aritmetičke sredine .
Kako ćemo izračunati standardnu devijaciju grupiranih podataka?
Za određivanje aritmetičke sredine koristili smo sredine razreda u zamjenu za nepoznate podatke tog razreda, a slično ćemo određivati i standardnu devijaciju.
Standardnu devijaciju grupiranih podataka određujemo prema pravilu
gdje je broj razreda, sredine razreda, frekvencije,
a aritmetička sredina grupiranog skupa podataka.
Primjer 3.
Izračunajmo standardnu devijaciju podataka iz Primjera 2.
U tu ćemo svrhu nadopuniti danu tablicu s nekoliko stupaca.
Težina ( )u kg | Broj studentica( ) | Sredina razreda( ) | ||
---|---|---|---|---|
Ukupno |
Ako broj
podijelimo s
a zatim izvadimo korijen, dobit ćemo standardnu devijaciju
S obzirom na velik broj računskih operacija koje treba provesti, za računanje standardne devijacije obično se koristimo proračunskim tablicama, džepnim ili običnim računalom.
Primjer 4.
Pokušajmo procijeniti medijan za podatke iz Primjera 2.
Ukupno je podataka o težini studentica. Tražimo razred u kojem se nalazi vrijednost ili težina, do koje se nalaze podatci o težinama za studentica. Pretpostavljamo da su podatci poredani po veličini.
Medijan je -i podatak u tom nizu.
Uočimo da se u prva tri razreda nalazi ukupno podataka. Tada je procijenjeni medijan jedan od podataka u razredu jer se u njemu nalazi podatka.
Kako do njega?
Širinu razreda ili raspon od ravnomjerno ćemo raspodijeliti na podatka o težini, koliko ih ima u tom razredu. To znači da će svaki podatak u tom razredu pridonijeti povećanju težine za
Od donje granice tog razreda ( -og podatka) do medijana ( -og podatka) jest
Pridodat ćemo ovu procijenjenu vrijednost na donju granicu razreda, pa je procijenjeni medijan jednak:
Kao što smo u prethodnom primjeru procijenili medijan, na isti način procijenite donji i gornji kvartil za podatke o težini studentica.
Donji kvartil jednak je
Gornji kvartil jednak je
U tablici su vremena reakcije nekih osoba na medijsku poruku.
Vrijeme,
(sekunde)
|
frekvencija |
---|---|
|
Ukupan broj podataka iznosi
Procjena medijana danog skupa podataka jest
U sljedećoj su tablici podatci o broju stanovnika Grada Hvara ovisno o dobnoj strukturi.
Dob,
( godine) |
Broj stanovnika |
---|---|
|
|
|
|
|
|
|
|
Ukupno |
|
Grafički prikaz histograma i poligona frekvencija
Modalni je razred Najviše je Hvarana u dobi od 50 (uključujući) do 60 godina, njih
Donji kvartil:
Gornji kvartil:
Interkvartilni raspon jest
stanovništva mlađe je od 42.4 godine, svih stanovnika Hvara ima 60 ili manje godina. svih Hvarana u dobi je od 23.6 do 60 godina.
Aritmetička sredina, odnosno prosječna dob stanovnika Grada Hvara, jest 42.2 godine. Standardna devijacija iznosi 22.7 g.
U dobnoj strukturi Grada Hvara prevladava zrelo stanovništvo s Staro stanovništvo u postotku iznosi što je veće od postotka mladog stanovništva koje iznosi
Pogledajmo na primjeru kako se koriste proračunske tablice za grupiranje i analizu podataka.