x
Učitavanje

10.4 Grupirani podaci

Europska unija, Zajedno do fondova EU
Sadržaj jedinice
Povećanje slova
Smanjenje slova
Početna veličina slova Početna veličina slova
Visoki kontrast
a Promjena slova
  • Verdana
  • Georgia
  • Dyslexic
  • Početni
Upute za korištenje

Na početku...

Slika prikazuje mnoštvo ljudi grupiranih po bojama majici.

U praksi je uobičajeno da veliku količinu prikupljenih podataka grupiramo u razrede. Najčešće se radi o kontinuiranim podatcima, no mogu se grupirati i diskretni podatci. Pri tome pojedinačne vrijednosti podataka ponekad nisu poznate ili nam nisu važne.

Kako izvršiti grupiranje podataka?

Organiziranje podataka u razrede

Primjer 1.

Prikazano je mnoštvo riba.

Pravilnikom o zaštiti riba i drugih morskih organizama propisane su minimalne duljine riba ispod koje se ne smiju loviti, sakupljati, zadržavati na plovilu, prekrcavati, iskrcavati, prenositi, skladištiti, prodavati, izlagati ili nuditi na prodaju.

Provedeno je istraživanje na uzorku od 50 srdela i dobiveni su sljedeći podatci o duljini.

12.3 14.4 17.5 10 14.3
11.7 14.9 14.1 12.5 15.0
14.7 13.7 15.8 13.9 16.1
15.8 17.1 14.8 13.5 12.3
10.2 13.1 11.4 12.6 13.2
13.7 14.9 15.3 12.1 14.6
13.1 13.3 15.7 14.2 13.8
13.2 12.7 15.6 15.2 16.8
14.1 14.5 17.6 12.9 13.7
15.2 13.6 11.8 13.4 15.5

Ovako prikazani podatci nepregledni su te nisu pogodni za analizu i donošenje zaključaka. Grupirat ćemo ih u razrede na sljedeći način.

  1. Odredimo raspon uzorka.

    R = x m a x - x m i n = 17.6 - 10 = 7.6

  2. Odaberimo odgovarajući broj razreda, primjerice 8.

  3. Odredimo širinu razreda tako da podijelimo raspon s brojem razreda.

    7.6 8 = 0.95 1 . Zaokružimo na veći broj.

  4. Odredimo granice razreda i napravimo tablicu frekvencija.

Napomena.

Broj razreda, odnosno širinu razreda, određujemo proizvoljno. Postoje neke preporuke, primjerice od 5 do 15 razreda, ovisno o broju podataka ili aproksimacije kao što je n . Međutim, odabir će najviše ovisiti o preciznosti i simetričnosti raspodjele podataka (distribucije) koji želimo prikazati. Tako se može dogoditi da odabir ponovimo i više puta. Ponekad ćemo prvo odrediti širinu razreda, a onda izračunati broj razreda i odrediti granice. Preporuka je da donja granica razreda bude jednaka gornjoj granici prethodnog razreda.

Tablica frekvencija

Duljina srdele ( d ) u cm Frekvencija ( f ) Relativna frekvencija ( f r )
10 d < 11 2 2 50 = 0.04
11 d < 12 3 3 50 = 0.06
12 d < 13 7 7 50 = 0.14
13 d < 14 13 13 50 = 0.26
14 d < 15 11 11 50 = 0.22
15 d < 16 9 9 50 = 0.18
16 d < 17 2 2 50 = 0.04
17 d < 18 3 3 50 = 0.06
Ukupno 50 1

Prikažimo dane podatke i grafički. Koristit ćemo se histogramom frekvencija.

Na slici je histogram.

Praktična vježba

Koristeći se sljedećim interaktivnim predloškom, mijenjajte broj razreda te promatrajte izgled histograma.

Kako promjena broja razreda, a time i njegove širine, utječe na raspodjelu podataka? Pokušajte pri svakoj promjeni broja razreda protumačiti podatke u realnom kontekstu. Može li se manipulirati podatcima?

Povećaj ili smanji interakciju

Modalni razred

Uočimo da se najviše izmjerenih podataka o duljini srdela nalazi ondje gdje je najveća frekvencija, u razredu u kojem je 13 d < 14 (u podjeli na 8 razreda).

Na osnovi istraživanja, na uzorku od 50 srdela, možemo reći da je duljina srdele najčešće između 13 i 14 cm .

Razred s najvećom frekvencijom nazivamo modalni razred.

Ponekad u tablicu frekvencija dodajemo stupac s relativnim frekvencijama u svrhu jednostavnije interpretacije ili uspoređivanja podataka.

Prema spomenutom pravilniku o zaštiti riba, ne smije se loviti srdela kraća od 11 cm . Relativnu frekvenciju od 0.04 (izraženu u postotku) za razred 10 d < 11  interpretiramo: Oko 4 % ulovljenih srdela nedopuštene je duljine.

Ili, na primjer, zaključujemo da duljinu između 13 cm i 15 cm ima oko 48 % ulovljenih srdela.

Relativna frekvencija omjer je frekvencije nekog podatka i ukupnog broja podataka.

Pišemo f r = f n .

Aritmetička sredina grupiranih podataka

Primjer 2.

Prikazano je vaganje na kućnoj vagi.

U sljedećoj su tablici težine 200 studentica jednog sveučilišta raspoređene u 7 razreda.

Težina (u kg ) Broj studentica
40 m < 50 11
50 m < 60 44
60 m < 70 54
70 m < 80 42
80 m < 90 24
90 m < 100 18
100 m < 110 7
Ukupno 200

Kada smo dobili podatke već grupirane u razrede, ne znamo stvarne vrijednosti tih podataka. Primjerice, znamo da se unutar razreda 80 m < 90 nalaze težine 24 studentice, ali ne znamo njihove individualne težine, pa čak sve 24 studentice mogu imati 89.9 kg . Međutim, razumno je pretpostaviti da će podatci biti ravnomjerno raspoređeni unutar intervala. U tom će slučaju sredina razreda nadomjestiti svaki podatak iz tog razreda, što će nam omogućiti određivanje aritmetičke sredine promatranog skupa podataka.

Dodajmo u gornju tablicu još dva stupca.

Težina ( m ) u kg Broj studentica ( f i ) Sredina razreda ( x i ) Umnožak ( f i · x i )
40 m < 50 11 45 495
50 m < 60 44 55 2 420
60 m < 70 54 65 3 510
70 m < 80 42 75 3 150
80 m < 90 24 85 2 040
90 m < 100 18 95 1 710
100 m < 110 7 105 735
Ukupno 200 14 060

Broj 14 060 predstavlja procjenu ili aproksimaciju ukupne težine svih studentica. Tada je aproksimacija aritmetičke sredine jednaka broju

14 060 200 = 70.3 .

Aritmetičku sredinu grupiranih podataka određujemo prema pravilu

x - = x 1 f 1 + x 2 f 2 + . . . + x r f r n ,

gdje je r broj razreda,    x 1 , x 2 , x 3 , . . . x r , sredine razreda, f 1 , f 2 . . . f r frekvencije i
  n = f 1 + f 2 + . . . + f r .  

Zadatak 1.

  1. Odredite modalni razred i njegovu relativnu frekvenciju za podatke o težini 200 studentica iz Primjera 2.
  2. Prikažite raspodjelu podataka histogramom i poligonom frekvencija. Interpretirajte podatak o modalnom razredu i aritmetičkoj sredini.
Histogram i poligon frekvencija.
  1. Modalni razred jest 60 m < 70 , f r = 54 200 = 0.27 = 27 % .
  2. Studentice danog sveučilišta u prosjeku su teške 70.3 kilograma, a najveći broj studentica ima težinu između 60 i 70 kilograma, njih 27 % .

Zadatak 2.

U sljedećoj su tablici podatci o visinama 150 muškaraca.

Visina, h ( cm ) Broj muškaraca
0 h < 110 1
110 h < 150 3
150 < h 160 15
160 < h 170 28
170 < h 180 35
180 < h 190 39
190 h < 200 22
200 h < 220 6
220 h < 240 1

Uočite da nisu svi razredi jednake širine.

  1. Upišite redom od prvog do devetog sve sredine razreda. , , , , , , , , .
    null
    null
  2. Modalni razred jest  

    null
    null
  3. Procjena ukupne visine svih 150 muškaraca jednaka je

    null
    null
  4. Aritmetička sredina izmjerenih visina približno je jednaka.

    null
    null

Zadatak 3.

Na jednoj od prometnijih autobusnih linija putnicima je postavljeno pitanje koliko su dugo čekali dolazak autobusa. Dobiveni su podatci prikazani sljedećim grafom. Vrijeme čekanja bilježilo se zaokruženo na cijeli broj minuta.
Prikazan je histogram s podatcima o vremenima čekanja autobusa.

Prikazani podatci su .

null
null
Broj anketiranih osoba jednak je  . Najveći broj osoba odgovorilo je da čeka dolazak autobusa između  i  minuta, uključujući broj .
null
null

Brojevi 2, 6, 10, 14, 18 na horizontalnoj osi predstavljaju

 
, a visine stupaca predstavljaju
 
.

frekvencije
sredinu razreda

null
null

Povucite odgovarajuće elemente na njihova mjesta u priloženoj tablici.

Tablica za popunjavanje.

0 t < 4

4 t < 8

8 t < 12

12 t < 16

16 t < 20

2

3

6

8

  10

12

13

14

18

20

50

54

112

120

130

428

null
null

U ovom se primjeru koristila kontinuirana varijabla koja je zaokružena na najbliži cijeli broj. To znači da je primjerice razred od 4 do 8 zapravo u granicama 3.5 do 8.5 , a razred od 8 do 12 u granicama od 7.5 do 12.5 . Ove se granice nazivaju korigirane ili precizne granice razreda. 

Ako su gornje granice prethodnog razreda za jedinicu manje od donjih granica sljedećeg razreda, onda u tablicu frekvencija obično upisujemo i korigirane granice, a za računanje sredine razreda i raspona razreda koristimo se korigiranim granicama.

Standardna devijacija grupiranih podataka

Zadatak 4.

Dopunite rečenice.

 Standardna devijacija je mjera  podataka. Visoka vrijednost standardne devijacije pokazuje da su podatci  prema sredini podataka. Niska vrijednost standardne devijacije pokazuje da su podatci   oko aritmetičke sredine .

null
null

Kako ćemo izračunati standardnu devijaciju grupiranih podataka?

Za određivanje aritmetičke sredine koristili smo sredine razreda u zamjenu za nepoznate podatke tog razreda, a slično ćemo određivati i standardnu devijaciju.

Standardnu devijaciju grupiranih podataka određujemo prema pravilu

σ = f 1 x 1 - x - 2 + f 2 x 2 - x - 2 + . . . + f r x r - x - 2 n ,

gdje je r broj razreda, x 1 , x 2 , x 3 , . . . x r  sredine razreda, f 1 , f 2 . . . f r frekvencije,

n = f 1 + f 2 + . . . + f r , a x - aritmetička sredina grupiranog skupa podataka.

Primjer 3.

Izračunajmo standardnu devijaciju podataka iz Primjera 2.

U tu ćemo svrhu nadopuniti danu tablicu s nekoliko stupaca.

Težina ( m )u kg Broj studentica( f i ) Sredina razreda( x i ) x i - x - 2 f i x i - x - 2
40 m < 50 11 45 640.09 7 041
50 m < 60 44 55 234.09 10 300
60 m < 70 54 65 28.09 1 516.9
70 m < 80 42 75 22.09 927.78
80 m < 90 24 85 216.09 5 186.2
90 m < 100 18 95 610.09 10 982
100 m < 110 17 105 1 204.09 8 428.6
Ukupno 200 44 382.5

Ako broj 44 382.5 podijelimo s 200 , a zatim izvadimo korijen, dobit ćemo standardnu devijaciju 44 382.5 200 14.896 15 kg .

S obzirom na velik broj računskih operacija koje treba provesti, za računanje standardne devijacije obično se koristimo proračunskim tablicama, džepnim ili običnim računalom.

Medijan grupiranih podataka

Bez originalnih je podataka teško precizno odrediti medijan grupiranih podataka ili kvartile. Stoga izračunom njegove pozicije u nizu podataka odredit ćemo razred u kojem se nalazi, a zatim procijeniti ili aproksimirati njegovu vrijednost jer točne podatke nemamo.

Primjer 4.

Pokušajmo procijeniti medijan za podatke iz Primjera 2.

Ukupno je 200 podataka o težini studentica. Tražimo razred u kojem se nalazi vrijednost ili težina, do koje se nalaze podatci o težinama za 50 % studentica. Pretpostavljamo da su podatci poredani po veličini.

Medijan je n + 1 2 = 100.5 -i podatak u tom nizu.

Uočimo da se u prva tri razreda nalazi ukupno 109 podataka. Tada je procijenjeni medijan jedan od podataka u razredu 60 m < 70 jer se u njemu nalazi 54 podatka.

Kako do njega?

Širinu razreda ili raspon od 10 kg ravnomjerno ćemo raspodijeliti na 54 podatka o težini, koliko ih ima u tom razredu. To znači da će svaki podatak u tom razredu pridonijeti povećanju težine za 10 54 kg .

Od donje granice tog razreda ( 56 -og podatka) do medijana ( 100.5 -og podatka) jest  45.5 · 10 54 = 8.4 kg .

Pridodat ćemo ovu procijenjenu vrijednost na donju granicu razreda, pa je procijenjeni medijan jednak: 60 kg + 8.4 kg = 68.4 kg .

Zadatak 5.

Kao što smo u prethodnom primjeru procijenili medijan, na isti način procijenite donji i gornji kvartil za podatke o težini studentica.

Donji kvartil jednak je ​ q 1 = 50 + 10 44 50.25 - 11 = 58.9 kg .

Gornji kvartil jednak je q 3 = 70 + 10 42 150.75 - 109 = 79.9 kg .


Zadatak 6.

U tablici su vremena reakcije nekih osoba na medijsku poruku.

Vrijeme, t (sekunde)
frekvencija
5 t < 15 4
15 t < 25 7
25 t < 35 14
35 t < 45 20
45 t < 55 12
55 t < 65 6
65 t < 75
2

  1.   Ukupan broj podataka iznosi

    null
    null
  2. Procjena medijana danog skupa podataka jest

    null
    null
  3. Interkvartilni raspon iznosi približno .
    null
    null

Zadatak 7.

U sljedećoj su tablici podatci o broju stanovnika Grada Hvara ovisno o dobnoj strukturi.

Podatci: DZS iz popisa stanovništva 2011.
Dob, g ( godine)
Broj stanovnika
0 g < 10
402
10 g < 20
457
20 g < 30
564
30 g < 40
574
40 g < 50 537
50 g < 60 658
60 g < 70 530
70 g < 80 354
80 g < 90 158
90 g < 100 17
Ukupno
4 251
  1. Prikažite podatke koristeći se histogramom i poligonom frekvencija.
  2. Odredite modalni razred te procijenite medijan, donji i gornji kvartil i interkvartilni raspon.
  3. Interpretirajte mjere raspršenosti.
  4. Smatra se da je mlado stanovništvo ono koje ima 19 godina i manje, zrelo između 20 i 59, a starije sa 60 i više godina. Koje stanovništvo prevladava u Hvaru i u kojem postotku u odnosu na ukupan broj stanovnika?
Histogram i poligon frekvencija za podatke o stanovništvu Hvara prema dobi.
a. Grafički prikaz histograma i poligona frekvencija
  1. Grafički prikaz histograma i poligona frekvencija

  2. Modalni je razred 50 g < 60 . Najviše je Hvarana u dobi od 50 (uključujući) do 60 godina, njih 15.5 % .

    Medijan: 42.4 g .

    Donji kvartil: 23.6 g .

    Gornji kvartil: 60 g .

    Interkvartilni raspon jest  36.4 g .

  3. 50 % stanovništva mlađe je od 42.4 godine, 75 % svih stanovnika Hvara ima 60 ili manje godina.  50 %   svih Hvarana u dobi je od 23.6 do 60 godina.

    Aritmetička sredina, odnosno prosječna dob stanovnika Grada Hvara, jest 42.2 godine. Standardna devijacija iznosi 22.7 g.

  4. U dobnoj strukturi Grada Hvara prevladava zrelo stanovništvo s 55 % . Staro stanovništvo u postotku iznosi 25 % , što je veće od postotka mladog stanovništva koje iznosi 20 % .


...i na kraju

Pogledajmo na primjeru kako se koriste proračunske tablice za grupiranje i analizu podataka.

Idemo na sljedeću jedinicu

10.5 Uspoređivanje i Interpretacija podataka