x
Učitavanje

10.3 Raspršenost podataka

Europska unija, Zajedno do fondova EU
Sadržaj jedinice
Povećanje slova
Smanjenje slova
Početna veličina slova Početna veličina slova
Visoki kontrast
a Promjena slova
  • Verdana
  • Georgia
  • Dyslexic
  • Početni
Upute za korištenje

Na početku...

U jednoj su trgovini cipela istraživali koja se veličina cipela najviše prodaje pa su dva puta bilježili veličine 20 uzastopno prodanih cipela. Rezultati su prikazani odgovarajućim stupčastim dijagramima.

Prosječna veličina cipela koje su se prodale prijepodne iznosi 37.95 . I prosječna veličina cipela koje su se prodale poslijepodne iznosi 37.95 . To bi moglo značiti da su prodaje skoro jednake. Međutim, iz stupčastih dijagrama vidimo da postoji razlika.

Što možemo zaključiti?

Da bismo dobro opisali skup podataka, nije dovoljno znati njegovu mjeru srednje vrijednosti, već i raspršenost podataka.

Krenimo redom.

Raspon podataka

Raspon podataka je razlika između najveće i najmanje vrijednosti podataka.

Primjer 1.

Na jednome su testiranju dobiveni sljedeći rezultati:

40 , 71 , 20 , 43 , 83 , 57 , 26 , 43 , 89 , 66 , 63 .

Uočimo da je najmanji rezultat x m i n = 20 , a najveći x m a x = 89 . Dakle, raspon podataka je

r = x m a x - x m i n = 89 - 20 = 69 .

Raspon podataka vrlo je gruba mjera raspršenosti, jer nam ne govori ništa o podatcima koji se nalaze između najmanje i najveće vrijednosti podataka.

Za daljnje proučavanje podataka uvedimo još neke važne pojmove.

Interkvartilni raspon

Znatno će bolja mjera raspršenosti biti raspon središnjih 50 % podataka.

Već ste upoznali medijan, vrijednost koja skup podataka dijeli na dva jednaka dijela. Ti se dijelovi dalje dijele na dva jednaka dijela, tj. četvrtine pomoću kvartila.

Prvi ili donji kvartil je broj od kojega je 25 % podataka manje ili je njemu jednako.

Drugi je kvartil medijan.

Treći ili gornji kvartil je broj od kojega je 75 % podataka manje ili je njemu jednako. 

Pogledajmo u animaciji kako ćemo odrediti kvartile za skup podataka 40 , 71 , 20 , 43 , 83 , 57 , 26 , 43 , 89 , 66 , 63 .

Interkvartilni raspon je razlika između gornjeg i donjeg kvartila, tj.

I q r = q 3 - q 1 .

Za skup podataka 40 , 71 , 20 , 43 , 83 , 57 , 26 , 43 , 89 , 66 , 63 , interkvartilni raspon je

I q r = q 3 - q 1 = 71 - 40 = 31 .

Zadatak 1.

  1. Građanska inicijativa provela je istraživanje koliko tijelima javne vlasti treba vremena da riješe zahtjev za pristup informacijama.
    Dobiveni su sljedeći rezultati u danima: 44 , 53 , 38 , 39 , 52 , 41 , 40 , 41 , 40 , 39 , 43 , 42 , 54 , 48 , 46 , 44 , 43 , 43 , 42 , 57 . Medijan podataka je , donji kvartil je , a gornji kvartil je  .
    null
    null
  2. Raspon podataka iznosi , a interkvartilni raspon iznosi .
    null
    null
  3. U 50 % slučajeva se na rješavanje zahtjeva čekalo dulje od dana.
    U 75 % slučajeva se na rješavanje zahtjeva čekalo manje od dana. Najkraće vrijeme za rješavanje zahtjeva je dana, a najdulje se čekalo  dana.
    null
    null

Zadatak 2.

Dijagram stablo-list prikazuje dob pretplatnika jednog znanstvenog časopisa.
Dijagram stablo-list

Napomena: 1 8 predstavlja 18 godina.
  1. 25 % pretplatnika je mlađe od godina.
  2. % pretplatnika je starije od 27 godina i mlađe od 46 godina.
  3. 75 % pretplatnika je mlađe od godina.
  4. Najstariji pretplatnik ima godina.
null
null

Zadatak 3.

Baterije

Udruga potrošača istraživala je trajanje dviju različitih vrsta baterija A i B. Testirano je po 40 komada svake vrste. Dobiveni su sljedeći rezultati:

Vrsta baterije
Medijan
(u satima)
Gornji kvartil
 (u satima)
Interkvartilni raspon
 (u satima)
A 30 32
4
B 29.5 30.5
2

Koja je vrsta baterije pouzdanija?

Baterije vrste B su pouzdanije.

75 % baterija vrste B ima vrijeme trajanja dulje od 28.5 sati, dok manji postotak baterija vrste A ima trajanje dulje od 28.5 sati ( 75 % baterija vrste A ima vrijeme trajanja dulje od 28 sati).


Pogledajmo kako ove podatke (najmanja vrijednost, najveća vrijednost, medijan, donji i gornji kvartil) možemo prikazati dijagramom.

Brkata kutija

Zanimljivost

Mačka

Brkata kutija je naš prijevod engleskog naziva box and whisker plot.

Za crtanje dijagrama brkata kutija potrebno je odrediti najmanju vrijednost među podatcima x m i n , donji kvartil q 1 , medijan q 2 , gornji kvartil q 3 i najveću vrijednost x m a x .

Tih pet brojeva x m i n , q 1 , q 2 , q 3 , x m a x čini karakterističnu petorku skupa podataka.

Primjer 2.

Matija je u ovoj košarkaškoj sezoni postigao sljedeći broj koševa po utakmici:

28 , 24 , 16 , 6 , 26 , 30 , 29 , 16 , 18 , 25 , 15 , 14 , 4 , 16 , 26 , 13 , 12 , 14 , 21 , 28 .

Prikažimo podatke brkatom kutijom.

Prvo ćemo podatke poredati po veličini, da bismo odredili karakterističnu petorku.

4 , 6 , 12 , 13 , 14 , 14 , 15 , 16 , 16 , 16 , 18 , 21 , 24 , 25 , 26 , 26 , 28 , 28 , 29 , 30

Vidimo da je najmanja vrijednost x m i n = 4 , a najveća vrijednost x m a x = 30 .

Odredimo medijan te donji i gornji kvartil.

Karakteristična petorka

Nacrtajmo brojevni pravac i na njemu označimo točke koje pripadaju karakterističnoj petorki te ucrtajmo odgovarajući pravokutnik s "brkovima".

Brkata kutija

Zadatak 4.

Namjestite granice dijagrama brkata kutija tako da prikazuje dani skup podataka. https://ggbm.at/gsS5WTjf https://ggbm.at/gsS5WTjf
Povećaj ili smanji interakciju

Zadatak 5.

  1. Koja od navedenih brkatih kutija opisuje skup podataka 40 ,   71 ,   74 ,   26 ,   43 ,   63 ,   83 ,   57 ?

    Brkata kutija

    Brkata kutija

    Brkata kutija

    null
    null
  2. Što od navedenoga vrijedi za podatke prikazane brkatom kutijom na slici?

    Brkata kutija

    null
    null

Standardna devijacija

Standardna devijacija najbolja je mjera raspršenosti podataka. Ona se, za razliku od raspona i interkvartilnoga raspona, računa iz svih dobivenih podataka i najčešće se koristi za analizu podataka.

Neka su zadani podatci x 1 , x 2 , x 3 , . . . x n i neka je x ¯ aritmetička sredina tih brojeva. Broj x i - x - nazivamo odstupanje vrijednosti podatka x i  od aritmetičke sredine.

Standardna devijacija za niz podataka x 1 , x 2 , x 3 , . . . x n korijen prosječnog kvadratnog odstupanja vrijednosti podataka od aritmetičke sredine, tj.

s = x 1 - x ¯ 2 + x 2 - x ¯ 2 + x 3 - x ¯ 2 + . . . + x n - x ¯ 2 n .

Primjer 3.

Izračunajmo standardnu devijaciju za skup podataka 9 , 12 , 13 , 14 , 17 , 19 .

Prvo izračunajmo aritmetičku sredinu ​podataka x ¯ = 9 + 12 + 13 + 14 + 17 + 19 6 = 14 .

Sada je s = 9 - 14 2 + 12 - 14 2 + 13 - 14 2 + 14 - 14 2 + 17 - 14 2 + 19 - 14 2 6 ,

s = 5 2 + 2 2 + 1 2 + 0 2 + 3 2 + 5 2 6 = 64 6 3.27 .

Standardna devijacija izražava se u istim jedinicama kao i vrijednosti podataka.

Ponekad je lakše i preglednije standardnu devijaciju računati koristeći tablice.

Izračunajmo tako standardnu devijaciju za skup podataka 4 , 4 , 4 , 5 , 8 , 8 , 14 , 17 .

Prvo ćemo izračunati aritmetičku sredinu x ¯ = 4 + 4 + 4 + 5 + 8 + 8 + 14 + 17 8 = 64 8 = 8 .

Podatke ćemo smjestiti u tablicu.

Vrijednosti x i Frekvencija f i
x i - x ¯ f i · x i - x ¯ 2
4 3
4 - 8 = - 4
3 · - 4 2 = 3 · 16 = 48
5 1
5 - 8 = - 3 - 3 2 = 9
8 2
8 - 8 = 0 2 · 0 = 0
14 1 14 - 8 = 6 6 2 = 36
17 1 17 - 8 = 9 9 2 = 81
Ukupno 174

Vidimo da zbroj u posljednjem stupcu iznosi 174 .

Tada je s = 174 8 = 21.75 4.66 .

Zadatak 6.

  1. Proučite podatke o prodaji cipela prijepodne i poslijepodne prikazane stupčastim dijagramima.
    Stupčasti dijagram prodaje cipela
    Stupčasti dijagram prodaje cipela
    U oba je slučaja prodano pari cipela. Aritmetičke sredine i jednoga i drugoga skupa podataka iznose . Standardna devijacija za podatke o prodaji cipela prijepodne iznosi , dok standardna devijacija za podatke o prodaji cipela poslijepodne iznosi .
    null
    null
  2. Istraživanje je pokazalo da veličina cipela koje se prodaju prijepodne varira nego veličina cipela koje se prodaju poslijepodne.

    null
    null

Tehnologija pri računanju i prikazivanju podataka

Pogledajmo kako za računanje i grafičko prikazivanje podataka možemo rabiti računalni program Excel koji je dio paketa Office 365 te je dostupan učenicima.

Pri računanju mjera srednjih vrijednosti i raspršenosti:

  1. Upišite podatke u tablicu.

  2. Postavite se na praznu ćeliju pa otvorite karticu Formule.

    1. Za računanje MOD-a podataka odaberite MODE.SNGL.
    2. Za računanje medijana podataka odaberite MEDIAN.
    3. Za računanje srednje vrijednosti odaberite AVERAGE.
    4. Za računanje standardne devijacije odaberite STDEV.P.

Pri grafičkom prikazu podataka:

  1. Upišite podatke u tablicu.
  2. Označite upisane podatke i otvorite karticu Umetanje.
  3. Odaberite grafički prikaz. Ne slikama su prikazani stupčasti dijagram, poligon frekvencija i brkata kutija.
  4. Grafičke prikaze možete mijenjati i uređivati.

Kutak za znatiželjne

Percentili

Percentili

Percentili dijele skup podataka na 100 dijelova, tj. svaki dio sadrži 1 % podataka. Percentil može biti bilo koji cijeli broj između 1 i 100 . Percentil je vrijednost ispod koje se nalazi odgovarajući postotak svih podataka. Medijan, kao podatak koji se nalazi točno na sredini, jednak je 50 . percentilu.

Percentil nije isto što i postotak. Na primjer, ako se nečiji rezultat nalazi na 40 . percentilu, to znači da 40 % učenika ima lošiji rezultat od njega, a ne da je on točno riješio 40 % testa.

Na školskoj su zadaći iz matematike učenici 1. a razreda postigli sljedeće bodove:

16 , 25 , 19 , 18 , 14 , 16 , 21 , 20 , 12 , 16 , 23 , 17 , 25 , 24 , 18 , 12 , 16 , 9 , 23 , 20 , 7 , 27 , 20 , 25 .

Želimo izračunati 35 . percentil.

Prvo bodove poredamo po veličini:

7 , 9 , 12 , 12 , 14 , 16 , 16 , 16 , 16 , 17 , 18 , 18 , 19 , 20 , 20 , 20 , 21 , 23 , 23 , 24 , 25 , 25 , 25 , 27 .

Ukupno ima 24 rezultata.

Da bismo odredili koji se rezultat nalazi na nekom percentilu, trebamo izračunati poziciju tog percentila u nizu podataka prema formuli i = p 100 · n , gdje je i pozicija traženog percentila, p traženi percentil, a n ukupni broj podataka.

U našem je primjeru i = 35 100 · 24 = 8.4 .

Ovaj broj zaokružimo na prvi veći cijeli broj, to je 9 .

Zaključimo: Podatak na 9. mjestu, odnosno 16 bodova odgovara 35 . percentilu, što znači da je 35 % učenika 1. a razreda postiglo 16 ili manje od 16 bodova, a 65 % učenika postiglo je 16 ili više bodova na ovoj školskoj zadaći.

Izračunajte 75 . i 95. percentil danih bodova.

Pozicija 75 . pecentila je 18 , što znači da broj bodova 23 odgovara 75 . percentilu.

Pozicija 90 . percentila je 22 , što znači da broj bodova 25 odgovara 95 . percentilu.


...i na kraju

Stroj za šifriranje Enigma
Stroj za šifriranje Enigma

Razbijači šifara

Razbijači šifara uvelike koriste statistiku. Poznato je da se neka slova češće pojavljuju nego neka druga.

Koje se slovo hrvatske abecede najčešće pojavljuje? Koji samoglasnik, a koji suglasnik?

Odaberite novinski članak od otprilike 250 riječi pa odredite frekvencije slova. Odredite raspršenost po raznim kriterijima.

PROCIJENITE SVOJE ZNANJE

1

Što je od navedenoga točno za niz podataka 32 , 61 , 46 , 48 , 12 , 26 , 55 , 46 , 17 , 60 , 38 , 59 , 44 , 48 , 11 , 47 ?

null
null
2
Dijagramom stablo-list prikazana je prodaja užina u školskoj kantini u 20 dana.
Dijagram stablo-list

Napomena: 12 1 predstavlja 121 užinu. Raspon podataka iznosi , a interkvartilni raspon je .
null
3

Na slici je prikazana brkata kutija. Označite karakterističnu petorku na osi ​ x .

Brkata kutija

Gornji kvartil

Maksimum

Medijan

Minimum

Donji kvartil

null

 

4

Tri skupine učenika sudjelovale su u ispitivanju u kojemu je bilo moguće skupiti najviše 5 bodova. U sve je tri skupine aritmetička sredina postignutih bodova jednaka 3 , ali se razlikuju po raspršenosti podataka. Rezultati su prikazani stupčastim dijagramima.

Stupčasti dijagram Skupine A
Stupčasti dijagram Skupine B
Stupčasti dijagram Skupine C
Razmislite i odgovorite. Najmanju standardnu devijaciju ima skupina , dok najveću standardnu devijaciju ima skupina .

null
5

Na Masters teniskom turniru u Madridu 2017. godine Borna Ćorić odigrao je šest mečeva. Postotci dobivenih poena osvojenih na prvome servisu na tome turniru dani su u tablici.

Broj meča 1. 2. 3. 4. 5. 6.
% osvojenih poena na prvome servisu 73 % 66 % 65 % 84 % 69 % 68 %

Kolika je standardna devijacija?

null
null
ZAVRŠITE PROCJENU

Idemo na sljedeću jedinicu

10.4 Grupirani podaci