U praksi je uobičajeno da veliku količinu prikupljenih podataka grupiramo u razrede. Najčešće se radi o kontinuiranim podatcima, no mogu se grupirati i diskretni podatci. Pri tome pojedinačne vrijednosti podataka ponekad nisu poznate ili nam nisu važne.
Kako izvršiti grupiranje podataka?
Organiziranje podataka u razrede
Primjer 1.
Pravilnikom o zaštiti riba i drugih morskih organizama propisane su minimalne duljine riba ispod koje se ne smiju loviti, sakupljati, zadržavati na plovilu, prekrcavati, iskrcavati, prenositi, skladištiti, prodavati, izlagati ili nuditi na prodaju.
Provedeno je istraživanje na uzorku od
srdela i dobiveni su sljedeći podatci o duljini.
Ovako prikazani podatci nepregledni su te nisu pogodni za analizu i donošenje zaključaka. Grupirat ćemo ih u razrede na sljedeći način.
Odredimo raspon uzorka.
Odaberimo odgovarajući broj razreda, primjerice 8.
Odredimo širinu razreda tako da podijelimo raspon s brojem razreda.
Zaokružimo na veći broj.
Odredimo granice razreda i napravimo tablicu frekvencija.
Napomena.
Broj razreda, odnosno širinu razreda, određujemo proizvoljno. Postoje neke preporuke, primjerice od 5 do 15 razreda, ovisno o broju podataka ili aproksimacije kao što je
Međutim, odabir će najviše ovisiti o preciznosti i simetričnosti raspodjele podataka (distribucije) koji želimo prikazati. Tako se može dogoditi da odabir ponovimo i više puta. Ponekad ćemo prvo odrediti širinu razreda, a onda izračunati broj razreda i odrediti granice. Preporuka je da donja granica razreda bude jednaka gornjoj granici prethodnog razreda.
Tablica frekvencija
Duljina srdele (
) u
Frekvencija (
)
Relativna frekvencija (
)
Ukupno
Prikažimo dane podatke i grafički. Koristit ćemo se histogramom frekvencija.
Praktična vježba
Koristeći se sljedećim interaktivnim predloškom, mijenjajte broj razreda te promatrajte izgled histograma.
Kako promjena broja razreda, a time i njegove širine, utječe na raspodjelu podataka? Pokušajte pri svakoj promjeni broja razreda protumačiti podatke u realnom kontekstu. Može li se manipulirati podatcima?
Modalni razred
Uočimo da se najviše izmjerenih podataka o duljini srdela nalazi ondje gdje je najveća frekvencija, u razredu u kojem je
(u podjeli na 8 razreda).
Na osnovi istraživanja, na uzorku od
srdela, možemo reći da je duljina srdele najčešće između
i
Ponekad u tablicu frekvencija dodajemo stupac s relativnim frekvencijama u svrhu jednostavnije interpretacije ili uspoređivanja podataka.
Prema spomenutom pravilniku o zaštiti riba, ne smije se loviti srdela kraća od
Relativnu frekvenciju od
(izraženu u postotku) za razred
interpretiramo: Oko
ulovljenih srdela nedopuštene je duljine.
Ili, na primjer, zaključujemo da duljinu između
i
ima oko
ulovljenih srdela.
Relativna frekvencija omjer je frekvencije nekog podatka i ukupnog broja podataka.
Pišemo
Aritmetička sredina grupiranih podataka
Primjer 2.
U sljedećoj su tablici težine
studentica jednog sveučilišta raspoređene u 7 razreda.
Težina (u
)
Broj studentica
Ukupno
Kada smo dobili podatke već grupirane u razrede, ne znamo stvarne vrijednosti tih podataka. Primjerice, znamo da se unutar razreda nalaze težine
studentice, ali ne znamo njihove individualne težine, pa čak sve
studentice mogu imati
Međutim, razumno je pretpostaviti da će podatci biti ravnomjerno raspoređeni unutar intervala. U tom će slučaju sredina razreda nadomjestiti svaki podatak iz tog razreda, što će nam omogućiti određivanje aritmetičke sredine promatranog skupa podataka.
Dodajmo u gornju tablicu još dva stupca.
Težina (
) u kg
Broj studentica (
)
Sredina razreda (
)
Umnožak (
)
Ukupno
Broj
predstavlja procjenu ili aproksimaciju ukupne težine svih studentica. Tada je aproksimacija aritmetičke sredine jednaka broju
Aritmetičku sredinu grupiranih podataka određujemo prema pravilu
gdje je broj razreda, , sredine razreda,
frekvencije i
Zadatak 1.
Odredite modalni razred i njegovu relativnu frekvenciju za podatke o težini
studentica iz Primjera 2.
Prikažite raspodjelu podataka histogramom i poligonom frekvencija. Interpretirajte podatak o modalnom razredu i aritmetičkoj sredini.
Modalni razred jest
Studentice danog sveučilišta u prosjeku su teške
kilograma, a najveći broj studentica ima težinu između
i
kilograma, njih
Zadatak 2.
U sljedećoj su tablici podatci o visinama
muškaraca.
Visina,
(
)
Broj muškaraca
Uočite da nisu svi razredi jednake širine.
Upišite redom od prvog do devetog sve sredine razreda.
,
,
,
,
,
,
,
,
.
null
null
Modalni razred jest
null
null
Procjena ukupne visine svih
muškaraca jednaka je
null
null
Aritmetička sredina izmjerenih visina približno je jednaka.
null
null
Zadatak 3.
Na jednoj od prometnijih autobusnih linija putnicima je postavljeno pitanje koliko su dugo čekali dolazak autobusa. Dobiveni su podatci prikazani sljedećim grafom. Vrijeme čekanja bilježilo se zaokruženo na cijeli broj minuta.
Prikazani podatci su .
null
null
Broj anketiranih osoba jednak je
. Najveći broj osoba odgovorilo je da čeka dolazak autobusa između
i
minuta, uključujući broj
.
null
null
Brojevi 2, 6, 10, 14, 18 na horizontalnoj osi predstavljaju
, a visine stupaca predstavljaju
.
frekvencije
sredinu razreda
null
null
Povucite odgovarajuće elemente na njihova mjesta u priloženoj tablici.
null
null
U ovom se primjeru koristila kontinuirana varijabla koja je zaokružena na najbliži cijeli broj. To znači da je primjerice razred od 4 do 8 zapravo u granicama
do
a razred od 8 do 12 u granicama od
do
Ove se granice nazivaju korigirane ili precizne granice razreda.
Ako su gornje granice prethodnog razreda za jedinicu manje od donjih granica sljedećeg razreda, onda u tablicu frekvencija obično upisujemo i korigirane granice, a za računanje sredine razreda i raspona razreda koristimo se korigiranim granicama.
Standardna devijacija grupiranih podataka
Zadatak 4.
Dopunite rečenice.
Standardna devijacija je mjera podataka. Visoka vrijednost standardne devijacije pokazuje da su podatci prema sredini podataka. Niska vrijednost standardne devijacije pokazuje da su podatci
oko aritmetičke sredine
.
null
null
Kako ćemo izračunati standardnu devijaciju grupiranih podataka?
Za određivanje aritmetičke sredine koristili smo sredine razreda u zamjenu za nepoznate podatke tog razreda, a slično ćemo određivati i standardnu devijaciju.
Standardnu devijaciju grupiranih podataka određujemo prema pravilu
gdje je
broj razreda,
sredine razreda,
frekvencije,
Izračunajmo standardnu devijaciju podataka iz Primjera 2.
U tu ćemo svrhu nadopuniti danu tablicu s nekoliko stupaca.
Težina (
)u kg
Broj studentica(
)
Sredina razreda(
)
Ukupno
Ako broj
podijelimo s
a zatim izvadimo korijen, dobit ćemo standardnu devijaciju
S obzirom na velik broj računskih operacija koje treba provesti, za računanje standardne devijacije obično se koristimo proračunskim tablicama, džepnim ili običnim računalom.
Medijan grupiranih podataka
Bez originalnih je podataka teško precizno odrediti medijan grupiranih podataka ili kvartile. Stoga izračunom njegove pozicije u nizu podataka odredit ćemo razred u kojem se nalazi, a zatim procijeniti ili aproksimirati njegovu vrijednost jer točne podatke nemamo.
Primjer 4.
Pokušajmo procijeniti medijan za podatke iz Primjera 2.
Ukupno je
podataka o težini studentica. Tražimo razred u kojem se nalazi vrijednost ili težina, do koje se nalaze podatci o težinama za
studentica. Pretpostavljamo da su podatci poredani po veličini.
Uočimo da se u prva tri razreda nalazi ukupno
podataka. Tada je procijenjeni medijan jedan od podataka u razredu
jer se u njemu nalazi
podatka.
Kako do njega?
Širinu razreda ili raspon od
ravnomjerno ćemo raspodijeliti na
podatka o težini, koliko ih ima u tom razredu. To znači da će svaki podatak u tom razredu pridonijeti povećanju težine za
Od donje granice tog razreda (
-og podatka) do medijana (
-og podatka) jest
Pridodat ćemo ovu procijenjenu vrijednost na donju granicu razreda, pa je procijenjeni medijan jednak:
Zadatak 5.
Kao što smo u prethodnom primjeru procijenili medijan, na isti način procijenite donji i gornji kvartil za podatke o težini studentica.
Donji kvartil jednak je
Gornji kvartil jednak je
Zadatak 6.
U tablici su vremena reakcije nekih osoba na medijsku poruku.
Vrijeme,
(sekunde)
frekvencija
Ukupan broj podataka iznosi
null
null
Procjena medijana danog skupa podataka jest
null
null
Interkvartilni raspon iznosi približno
.
null
null
Zadatak 7.
U sljedećoj su tablici podatci o broju stanovnika Grada Hvara ovisno o dobnoj strukturi.
Podatci: DZS iz popisa stanovništva 2011.
Dob,
( godine)
Broj stanovnika
Ukupno
Prikažite podatke koristeći se histogramom i poligonom frekvencija.
Odredite modalni razred te procijenite medijan, donji i gornji kvartil i interkvartilni raspon.
Interpretirajte mjere raspršenosti.
Smatra se da je mlado stanovništvo ono koje ima 19 godina i manje, zrelo između 20 i 59, a starije sa 60 i više godina. Koje stanovništvo prevladava u Hvaru i u kojem postotku u odnosu na ukupan broj stanovnika?
a. Grafički prikaz histograma i poligona frekvencija
Grafički prikaz histograma i poligona frekvencija
Modalni je razred
Najviše je Hvarana u dobi od 50 (uključujući) do 60 godina, njih
stanovništva mlađe je od 42.4 godine,
svih stanovnika Hvara ima 60 ili manje godina.
svih Hvarana u dobi je od 23.6 do 60 godina.
Aritmetička sredina, odnosno prosječna dob stanovnika Grada Hvara, jest 42.2 godine. Standardna devijacija iznosi 22.7 g.
U dobnoj strukturi Grada Hvara prevladava zrelo stanovništvo s
Staro stanovništvo u postotku iznosi
što je veće od postotka mladog stanovništva koje iznosi
...i na kraju
Pogledajmo na primjeru kako se koriste proračunske tablice za grupiranje i analizu podataka.