Valószínűségszámítás és statisztika

Fő kategória: matek.

$\DeclareMathOperator{\tg}{tg}\DeclareMathOperator{\ctg}{ctg}\DeclareMathOperator{\arctg}{arctg}\DeclareMathOperator{\arcctg}{arcctg}\DeclareMathOperator{\arccot}{arccot}\DeclareMathOperator{\arcsec}{arcsec}\DeclareMathOperator{\arccsc}{arccsc}$

Áttekintés

A valószínűségszámítás a matematikai feladatok kedvenc témája, így érdemes ezt a területet minél jobban megismerni.

A valószínűségszámítási feladatokat két fő csoportra oszthatjuk:

Az egyikben azt kérdezik, hogy valaminek mi a valószínűsége. Ennek az általános megoldása az, hogy meghatározzuk az összes esetet, valamint a lehetséges eseteket (a valószínűségükkel súlyozva), és az eredmény a kettő hányadosa. Lehetőség szerint itt érdemes meghatározni azokat az elemi eseteket, melyek már egyforma valószínűséggel fordulnak elő, és ez esetben nem kell foglalkoznunk a valószínűségekkel.

Pl. ha a feladat az, hogy mekkora eséllyel dobunk egy szabályos dobókockával legalább ötöst, akkor az összes eset száma 6, melyek mindegyikének ugyanakkora a valószínűsége, a számunkra kedvező esetek száma 2, így a feladat megoldása $\frac{2}{6} = \frac{1}{3}$.

Egy példa arra, amelyben az elemei esetek valószínűsége nem ugyanakkora: mekkora eséllyel lesz két szabályos dobókocka értékének az összege legalább 10. Ez esetben a lehetséges értékek 2, 3, 4, …, 10, 11, 12, viszont ezek nem egyforma eséllyel fordulnak elő. Visszavezetve olyan elemi eseményekre, amelyeknek már egyforma az esélye: az egyik és a másik kockával is 6 féle eredmény jöhet ki, és mivel ezek függetlenek, az összes esetszám 36. Számunkra kedvező esetek: 6+6, 6+5, 6+4, 5+6, 5+5, 4+6, tehát a számunkra kedvező esetek száma 6. Így a feladat megoldása $\frac{6}{36} = \frac{1}{6}$.

Ezekből a példákból már sejthető, hogy a kombinatorika alapvető fontosságú a valószínűségszámítás területén.

A másik gyakori feladattípusban arra kérdeznek rá, hogy valaminek mi a várható értéke. Itt az elemi eseményeket kell átlagolni azok valószínűségével súlyozva.

Például ha két szabályos dobókockával dobunk, akkor mi a várható értéke a két dobott érték szorzatának? Itt is érdemes a 36 elemi esetből kiindulni, a szorzásokat elvégezni és azokat átlagolni. Ha az első dobókockával 1-es dobtunk, akkor a szorzatok rendre 1, 2, 3, 4, 5 és 6, és ezek összege 21. Ha az első kockával 2-est dobtunk, akkor a szorzatok összege 42, ha 3-ast, akkor 63, ha 4-est, akkor 84, ha 5-öst, akkor 105, végül ha 6-ost, akkor 126. Ezek összege: 21 + 42 + 63 + 84 + 105 + 126 = 441. Ezt el kell osztani a lehetséges esetek számával, azaz 36-tal, így kapjuk az eredményt: $\frac{441}{36} = 12,25$.

A fenti példákban a valószínűségi változó diszkrét volt. Folytonos esetben nem lehet felsorolni az összes esetet, és egy-egy konkrét érték valószínűsége 0, így ott valószínűség esetén csak intervallumokra lehet rákérdezni, a várható érték viszont ott is értelmezett.

Példa: tegyük fel, hogy egy metró óramű pontossággal 3 percenként jár, véletlen időpontban megyünk le, és az első metróra felszállunk. Ez esetben nem kérdezhetjük azt, hogy mekkora eséllyel várunk pontosan 2 percet, mert az nulla, de olyat pl. kérdezhetünk, hogy mekkora eséllyel lesz a várakozás legfeljebb 2 perc. "Érezzük", hogy a megoldás $\frac{2}{3}$. És várhatóan mennyit kell várnunk? Talán ez is megy számolás nélkül, ugyancsak "ráérzésre": másfél percet. A formális számolás itt már sokkal komplikáltabb, mint diszkrét esetben.

Ezek valójában egyszerű feladatok voltak, de a lehetőségek bemutatására és a fogalmak illusztrálására alkalmasak.

Fogalmak

Definiáljunk pár fogalmat! Ez elég "száraz" része ennek a szakasznak, viszont fontos tisztázni a fogalmakat, melyekre a későbbiekben hivatkozunk.

  • A valószínűségi változót tipikusan nagybetűvel jelöljük, az ábécé végéről, pl. $X$, $Y$. Diszkrét esetben ez pl. a kockadobás, folytonos esetben pl. a metró érkezéséig eltelt idő.
  • Az eseménytér a valószínűségi változó által felvehető lehetséges értékeinek a halmaza. Az eseménytér jelölése a görög ábécé végi nagybetű, pl. $\Omega$. A lehetséges értékeket a valószínűségi változó betűjelének kisbetűs változatával jelöljük, pl. $x$, $y$. Pl. kockadobás esetén ezek az 1, 2, 3, 4, 5 és 6 értékeket jelentik, a metróra való várakozás esetén pedig egy 0 és 3 közötti tetszőleges érték.
  • A valószínűség jelölése $P$, és itt zárójelben adjuk meg azt, hogy mire vonatkozik. Pl. diszkrét esetben jelölje $A$ azt az eseményt, hogy a dobás eredménye legalább 5. Ekkor $P(A) = \frac{1}{3}$. Folytonos esetben intervallumra adunk valószínűséget. Pl. a metróra történő várakozást formálisan felírva ezt kapjuk $P(x<2) = \frac{2}{3}$.
  • Az eloszlásfüggvény jele $F(x)$. Azt adja meg, hogy mekkora eséllyel lesz az eredmény kisebb az adott értéknél. Elsősorban a folytonos valószínűségnél van jelentősége, a részleteket ld. ott.
  • A sűrűségfüggvény jele $f(x)$. Azt fejezi ki, hogy milyen értékek mentén kisebb ill. nagyobb a valószínűségi változó értéke. Folytonos esetben van jelentősége, ld- ott.
  • A várható érték jele $E(X)$. Ez az egyes értékek valószínűségükkel súlyozott összege. Egyéb jelölése: $\mu$. Erről még lesz szó bővebben.
  • A szórás jele $D(X)$. Ez egy valószínűségi változó értékeinek a várható értéktől való eltérésének a mértéke. Egyéb jelölése: $\sigma$. A tapasztalati szórás jele $s$.
  • A variancia jele $Var(X)$, és ez a szórás négyzete.
  • A kovariancia jele $Cov(X, Y)$, ez megadja két valószínűségi változó együtt mozgásának a mértékét.

A nagy számok törvénye

A valószínűségszámítás egyik alapvető tétele, mely kimondja, hogy egy kísérletet sokszor elvégezve az eredmények átlaga egyre közelebb lesz a várható értékhez.

A nagy számok törvényét sokan félreértik pl. úgy, hogy ha néhány kísérletben kisebb értékek jöttek ki, akkor utána nagyobb értékeknek "kell" kijönniük, hogy az átlag "közeledjen" a várható értékhez; ez természetesen nem igaz. A valószínűségszámítással kapcsolatos leggyakoribb tévedéseket ld. a megfelelő alfejezetben.

Diszkrét valószínűség

A valószínűségszámítás egyszerűbbik területe a diszkrét valószínűség. Itt nincs szükség deriválásra, integrálásra, a sűrűségfüggvény és az eloszlásfüggvény inkább csak érdekesség.

Várható érték

A várható érték az egyes értékek valószínűségükkel súlyozott összege:
$E(X) = \sum\limits_{i=1}^{n}x_i\cdot p(x_i)$

Például a kockadobás várható értékének formális kiszámolása:
$E(X) = \frac{1}{6}\cdot 1 + \frac{1}{6}\cdot 2 + \frac{1}{6}\cdot 3 + \frac{1}{6}\cdot 4 + \frac{1}{6}\cdot 5 + \frac{1}{6}\cdot 6 = 3,5$

Ez egyébként megegyezik a kockán levő értékek számtani átlagával:
$E(X) = \frac{1+2+3+4+5+6}{6} = 3,5$

Más a helyzet, ha az egyes értékek valószínűsége eltérő. Pl. ha a 6 oldalú dobókockán 4 darab 1-es, 1 darab 2-es és 1 darab 6-os van, akkor a várható érték:
$E(X) = \frac{4}{6}\cdot 1 + \frac{1}{6}\cdot 2 + \frac{1}{6}\cdot 6 = 2$

(Érdemes ezt a példát elővenni akkor, ha úgy érezzük, hogy az átlagfizetés nem a valóságot mutatja.)

Szórás

Van még egy fontos fogalom, amivel érdemes megismerkednünk: a szórás. Matekfeladatokban erre ritkán van szükség, viszont a statisztika helyes értelmezéséhez nélkülözhetetlen. A szórás azt mutatja meg, hogy a valószínűségi változók értékei átlagosan mennyire térnek el a várható értéktől.

Mielőtt még belemélyednénk a részletekbe, vegyünk néhány tapasztalati példát!

  • Az iskolában az osztályzatot többnyire a megszerzett jegyek átlagaként határozzák meg. Ha valakinek van 6 darab négyese, az négyest kap, ahogy az is, akinek 3 hármasa és 3 ötöse. Mégis, érezzük, hogy a két tudás nem teljesen ugyanaz.
  • Van két, 10 fős munkás csoport. Az egyik csoportban 9 munkás 100 egység fizetésért dolgozik, a tizedik 1100 egységért. A másik csoportban mindenki egységesen 200 egységet kap keresetként. Mindkét esetben az átlagfizetés 200, mégsem ugyanaz a helyzet.

A szórás jele a $D$. Képlete:
$D(X) = \sqrt{E(X-E(X))^2} = \sqrt{E(X^2)-E^2(X)}$

Az $E(X^2)$ neve második momentum, kiszámolása:
$E(X^2) = \sum\limits_{i=1}^{n}x_i^2\cdot p(x_i)$

A szórás kiszámolása akkor, ha az egyes esetek előfordulási gyakorisága ugyanakkora:
$D(X) = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\hat x)}{n}}$

Itt $\hat x$ az $x_i$-k átlaga, ami megegyezik a várható értékel ($E(X)$):
$\hat x = \frac{\sum\limits_{i=1}^n x_i}{n}$

Lássuk a dobókocka szórásának a kiszámolását! Mivel itt 6 lehetséges érték van egyenlő valószínűségekkel, alkalmazhatjuk az utóbbi képletet:
$D(X)=\sqrt{\frac{(1-3,5)^2+(2-3,5)^2+(3-3,5)^2+(4-3,5)^2+(5-3,5)^2+(6-3,5)^2+}{6}} = \sqrt{\frac{6,25+2,25+0,25+0,25+2,25+6,25}{6}} = \sqrt{\frac{17,5}{6}}\approx 1,71$

A dobókocka szórása tehát közelítőleg 1,71. Az átlagos eltérés az átlagtól ($\frac{|1-3,5|+|2-3,5|+|3-3,5|+|4-3,5|+|5-3,5|+|6-3,5|}{6} = \frac{3}{2}$) lenne, a szórás tehát valamivel nagyobb, mint az átlagos eltérés.

Számoljuk ki a szórást a második momentum segítségével is!
$E(X^2) = 1^2\cdot\frac{1}{6} + 2^2\cdot\frac{1}{6} + 3^2\cdot\frac{1}{6} + 4^2\cdot\frac{1}{6} + 5^2\cdot\frac{1}{6} + 6^2\cdot\frac{1}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6} \approx 15,17$

Ezt helyettesítsük be a szórás képletébe:
$D(X) = \sqrt{E(X^2)-E^2(X)} = \sqrt(\frac{91}{6} - 3,5^2) \approx 1,71$

Ugyanazt kaptuk eredményül.

Vegyük most az osztályzásos példa szórását! Mindkét esetben az első képletet alkalmazzuk. Ha a tanulónak 6 darab 4-es osztályzata van:
$D(X_1)=sqrt{\frac{(4-4)^2+(4-4)^2+(4-4)^2+(4-4)^2+(4-4)^2+(4-4)^2}{6}} = \sqrt\frac{0}{6} = 0$

Ha három darab hármas, és három darab ötös osztályzata van:
$D(X_2) = \sqrt\frac{(3-4)^2+(3-4)^2+(3-4)^2+(5-4)^2+(5-4)^2+(5-4)^2}{6} = \sqrt\frac{1+1+1+1+1+1}{6} = \sqrt\frac{6}{6} = \sqrt{1} = 1$

Itt véletlenül egybe esik a várható értéktől való átlagos eltérés és a szórás.

Érdemes megjegyezni, hogy a tapasztalati szórás esetén (tehát amikor nem elméletben vesszük az összes lehetséges értéket, hanem ténylegesen végrehajtunk néhány mérést, és az alapján próbáljuk meg kiszámolni a várható értéket és a szórást) nem $n$-nel, hanem - itt a mérések számát $N$-nel jelölve - $N-1$-gyel érdemes osztani (ennek az oka kb. az, hogy a tapasztalati szórás rendszerint alulbecsüli a valódit):
$D(X) = \sqrt{\frac{\sum_{i=1}^{N}(x_i-\hat x)}{N-1}}$

Az átlagot itt továbbra is $N$-nel osztva számoljuk ki:
$\hat x = \frac{\sum\limits_{i=1}^N x_i}{N}$

Feltételes valószínűség

A feltételes valószínűség - ahogy a nevéből is következik - egy esemény bekövetkezésének a valószínűségét jelenti, feltéve, hogy egy másik esemény bekövetkezett. Például egy szabályos dobókockával mekkora eséllyel dobunk párost, feltéve, hogy 6-nál kisebbet (tehát nem hatost) dobtunk? Általában a páros dobás valószínűsége $\frac{1}{2}$, viszont jelen esetben az a feltétel, hogy a dobás értéke 1, 2, 3, 4 vagy 5, melyek közül az 1 és a 3 a páratlan, tehát a feladat megoldása $\frac{2}{5}$.

Az $A$ esemény bekövetkezésének a valószínűségének a jelölése, feltéve, hogy a $B$ esemény bekövetkezett, a következő: $P(A|B)$. Kiszámolása:

$P(A|B)=\frac{P(A\cap B)}{P(B)}$

Jelölések (itt nemcsak a fenti képletben, hanem a későbbiekben használtak is):

  • $P(A)$: az $A$ esemény bekövetkezésének a valószínűsége.
  • $P(B)$: a $B$ esemény bekövetkezésének a valószínűsége.
  • $P(A|B)$: az $A$ esemény bekövetkezésének a valószínűsége, feltéve, hogy a $B$ esemény bekövetkezett.
  • $P(B|A)$: a $B$ esemény bekövetkezésének a valószínűsége, feltéve, hogy az $A$ esemény bekövetkezett.
  • $P(A\cap B)$: annak a valószínűsége, hogy az $A$ és a $B$ esemény egyszerre következik be.

A fenti példát formálisan kiszámolva:

  • $A$ esemény: párost dobunk.
  • $B$ esemény: 6-nél kisebbet dobunk.
  • $P(B)$: annak az esélye, hogy 6-nál kisebbet dobunk, tehát $\frac{5}{6}$.
  • $P(A\cap B)$: annak az esélye, hogy 6-nél kisebbet és párost dobunk egyszerre. Ilyen a 2 és a 4 lehet, azaz 2 lehetőség a 6-ból, azaz $\frac{1}{3}$.
  • $P(A|B)$: annak az esélye, hogy párost dobunk, feltéve, hogy 6-nál kisebbet dobtunk: $P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{\frac{1}{3}}{\frac{5}{6}} = \frac{2}{5}$.

Tehát formális számolással is kijött a $\frac{2}{5}$ végeredmény.

Sok esetben előfordul, hogy a $P(B|A)$ meghatározása sokkal könnyebb, mint a $P(A|B)$. Valójában az egy típus feladat, hogy a $P(A|B)$-t kell kiszámolni, de a $P(A\cap B)$-t szinte képtelenség végiggondolni, a $P(B|A)$ viszont ez esetben sokszor triviális, akár pl. 1 (100%). A $P(B|A)$ a fenti példában azt jelenti, hogy mekkora eséllyel dobunk 6-nál kisebbet, feltéve, hogy párost dobtunk. Itt persze nem bonyolultabb a kiszámolása, és ez az érték $\frac{2}{3}$, és talán leheletnyivel egyszerűbb is, mint a $P(A\cap B)$.

Egy feltételes valószínűséget a fordítottjával az ún. Bayes-formula segítségével tudjuk kifejezni:

$P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}$

Számoljuk ki most formálisan is a $P(A|B)$-t a Bayes-formula segítségével! Összefoglalva a szükséges valószínűségeket:

  • $P(A)=\frac{1}{2}$
  • $P(B)=\frac{5}{6}$
  • $P(B|A)=\frac{2}{3}$

Ekkor behelyettesítve a Bayes-formulába:

$P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)} = \frac{\frac{2}{3}\cdot\frac{1}{2}}{\frac{5}{6}} = \frac{2}{5}$

Folytonos valószínűség

Áttekintés

A diszkrét valószínűség esetén a várható érték és a szórás valójában eléggé egyértelmű: feltéve, hogy az elemi események bekövetkezési valószínűsége egyforma, a várható érték a lehetséges értékek átlaga, a szórása pedig az átlagtól való átlagos eltérés.

Ugyanezt viszont folytonos esetben nem tudjuk alkalmazni, hiszen tetszőleges értékre annak az esélye, hogy pontosan azt az értéket veszi fel a valószínűségi változó, nulla. Ha például a valószínűségi változó az, hogy mennyit kell várnunk egy olyan metróra, melynek a követési ideje 3 perc, akkor egy adott esetben a valószínűségi változó egy 0 és 3 közötti értéket vesz fel. Viszont ha úgy tesszük fel a kérdést, hogy mekkora eséllyel várunk pontosan 1 percet, akkor a válasz az, hogy 0. Ahogy másfelet is, kettőt is stb.

Persze ettől függetlenül annak a kérdésnek viszont van értelme, hogy mi a valószínűbb: egy vagy két percet kell-e várnunk. Például ha két metró megy ugyanabba az irányba egymástól függetlenül, akkor annak az esélye, hogy egy percet kell várnunk, nagyobb, mint annak, hogy kettőt.

Folytonos esetben intervallumokról beszélhetünk: annak a kérdésnek pl. van értelme, hogy mekkora eséllyel várunk legalább egy, legfeljebb másfél percet. Ezt most "ránézésre" meg tudjuk mondani: $\frac{1}{6}$. Az már sokkal nehezebb kérdés, hogy két, egymástól független, 3 perc követési idejű metró esetén mekkora eséllyel várunk legalább egy, legfeljebb másfél percet.

A folytonos valószínűséggel kapcsolatos feladatok kiszámolásához más eszközrendszert kell használnunk, mint diszkrét esetben, melyeket most itt átveszünk.

Eloszlásfüggvény

Egy valószínűségi változó eloszlásfüggvényét megkapjuk, ha felírjuk minden x-re, mínusz végtelentől plusz végtelenig azt, hogy mekkora eséllyel lesz az eredmény kisebb az adott értéknél. Ennek a jelölése $F$, ill. mivel függvényről van szó, zárójelben az értelmezési tartományt adjuk meg: $F(x)$.

Néhány fontos tulajdonsága:

  • Mínusz végtelenben az értéke 0.
  • Plusz végtelenben az értéke 1.
  • Nem csökkenő.

Sűrűségfüggvény

A sűrűségfüggvény fejezi ki azt, hogy milyen értékek mentén kisebb ill. nagyobb a valószínűségi változó értéke. Jelölése $f$, egészen pontosan $f(x)$, mivel függvényről van szó. Diszkrét értékek esetén ez az adott érték valószínűségét fejezi ki (pl. annak a valószínűsége, hogy négyest dobunk egy szabályos dobókockával, $\frac{1}{6}$; annak a valószínűsége, hogy két szabályos dobókockával két hatos dobunk, $\frac{1}{36}$). Az összes lehetséges eset valószínűségeinek az összege 1.

Folytonos esetben ettől a jelentéstől valamelyest el kell vonatkoztatnunk, mivel egy-egy adott érték valószínűsége nulla. Ebben az esetben a fentihez hasonló "látványos" értelmezést nem tudunk adni, de pl. ha valahol ez az érték kétszerese, mint máshol, akkor az első helyen egy tetszőleges kis intervallum bekövetkezési valószínűsége kétszer akkora, mint a második hely ugyanolyan széles intervallumáé. A sűrűségfüggvénynek a következő fontos tulajdonságai vannak:

  • Nem lehet negatív.
  • A görbe alatti terület értéke pontosan 1.

Formálisan, a sűrűségfüggvényre tehát érvényes a következő képlet:
$\int\limits_{-\infty}^{\infty}f(x)dx = 1$

Kapcsolat az eloszlásfüggvény és sűrűségfüggvény között

Az eloszlásfüggvény a sűrűségfüggvény határozott integráltja, mínusz végtelentől x-ig:
$F(x) = \int\limits_{-\infty}^{x}f(t)dt$

A sűrűségfüggvény az eloszlásfüggvény deriváltja:
$f(x) = F'(x)$

Azt, hogy mekkora eséllyel esik a valószínűségi változó értéke egy adott intervallumba, a sűrűségfüggvény határozott integráljával számoljuk ki. A sűrűségfüggvény közvetlen meghatározása nehéz, a legegyszerűbb az eloszlásfüggvényt meghatározni és azt deriválni.

Várható érték

Emlékeztetőül: diszkrét esetben előfordulási valószínűségükkel súlyozva átlagoltuk a valószínűségi változó lehetséges értékeit. Folytonos esetben ezt nem tudjuk megtenni. A várható értéket a sűrűségfüggvény és az $x$ szorzatának integrálja segítségével számolhatjuk ki:

$E[X] = \int\limits_{-\infty}^{\infty}x\cdot f(x)dx$

Általában a folytonos valószínűségszámítási feladatokban a legegyszerűbb az eloszlásfüggvényt felírni, így azt felhasználva, $dF(x)$-szel jelölve az $F(x)$ deriváltját, adódik a következő képlet (amit a leírások többnyire levezetés nélkül adnak meg):

$E[X] = \int_{-\infty}^{\infty}x\cdot dF(x)dx$

Szórás

A matekfeladatokban egy folytonos valószínűségi változó szórását viszonylag ritkán kell kiszámolnunk, melyet a következő képlet segítségével tudunk szükség esetén megtenni:
$D[X] = \sqrt{\int\limits_{-\infty}^{\infty}(x-E[X])^2\cdot f(x)dx}$

Ill. ami ezzel ekvivalens:
$D[X] = \sqrt{E[X^2]-E^2[X]}$

Ami egyenlő ezzel:
$D[X] = \sqrt{\int\limits_{-\infty}^{\infty}x^2\cdot f(x)dx - \left(\int\limits_{-\infty}^{\infty}x\cdot f(x)dx\right)^2}$

Egy egyszerűbb példa

Példaként vegyük először azt a valószínűségi változót, hogy várhatóan mennyit kell várni a 3 perc követési idővel közlekedő metróra! Azt is számoljuk ki, hogy mekkora eséllyel lesz a várakozás egy és másfél perc közötti! Persze "ránézésre" látjuk, hogy a várható érték másfél perc, a valószínűség pedig $\frac{1}{6}$, de vezessük le formálisan!

Az eloszlásfüggvényt közvetlenül felírhatjuk:
$F(x)=\begin{cases} 0 & \text{ha $x<0$} \\ \frac{x}{3} & \text{ha $0\le x<3$} \\ 1 & \text{ha $x\ge 3$}\end{cases}$

A sűrűségfüggvény az eloszlásfüggvény deriváltja:
$f(x)=\begin{cases} 0 & \text{ha $x<0$} \\ \frac{1}{3} & \text{ha $0\le x<3$} \\ 0 & \text{ha $x\ge 3$}\end{cases}$

A sűrűségfüggvény segítségével tudunk választ adni arra a kérdésre, hogy mekkora eséllyel következik be az esemény egy adott intervallumon, mégpedig annak határozott integráljával. Most csak a 0 és 3 közötti szakaszt véve a határozott integrál a következő (0 alatt és 3 felett konstans):
$\int f(x)dx = \int\frac{1}{3}dx = \frac{x}{3} + C$

Arra kérdésre tehát, hogy mekkora eséllyel kell várnunk legalább egy, legfeljebb másfél percet, az 1 é 1,5 közötti határozott integrállal tudjuk kiszámolni:
$\int\limits_1^{1,5} f(x)dx = \left[\frac{x}{3}\right]_1^{1,5} = \frac{1,5}{3} - \frac{1}{3} = \frac{0,5}{3} = \frac{1}{6}$

Megkaptuk tehát ugyanazt az eredményt, amit vártunk, formális levezetéssel is.

Lássuk a várható érték kiszámolását!
$E[X] = \int\limits_{0}^{3}x\cdot\frac{1}{3}dx = \left[\frac{x^2}{6}\right]_0^3 = (\frac{3^2}{6}) - (\frac{0^2}{6}) = 1,5$

Kissé "nyakatekerten", de itt is kijött eredményül a másfél perc, ahogyan azt vártuk.

Végül számoljuk ki a szórást is:
$D[X] = \sqrt{\int\limits_0^3(x-1,5)^2\cdot\frac{1}{3}dx}$
$= \sqrt{\int\limits_0^3(\frac{x^2}{3}-x+\frac{3}{4})dx}$
$= \sqrt{\left[\frac{x^3}{9}-\frac{x^2}{2}+\frac{3x}{4}\right]_0^3}$
$= \sqrt{\frac{3^3}{9}-\frac{3^2}{2}+\frac{3\cdot 3}{4}}$
$= \sqrt{0,75}$
$\approx 0,866$

A másik képlettel ugyanez jön ki:
$D[X] = \sqrt{E[X^2]-E^2[X]}$

Az $E[X]$-et már kiszámoltuk: $\frac{3}{2}$. Számoljuk ki $E[X^2]$-et!
$E[X^2] = \int\limits_{-\infty}^{\infty}x^2\cdot f(x)dx = \int\limits_0^3x^2\cdot\frac{1}{3}dx = \left[\frac{x^3}{9}\right]_0^3 = \frac{3^3}{9} - \frac{0^3}{9} = 3$

Visszahelyettesítve:
$D[X] = \sqrt{3-\left(\frac{3}{2}\right)^2} = \sqrt{\frac{3}{4}} \approx 0,866$

A várakozás szórása kb. 51 másodperc. A szórás itt is valamivel magasabb a várható értéktől való átlagos eltéréstől, ami 45 másodperc lenne.

Egy bonyolultabb példa

Lássunk most egy olyan példát is, ahol ránézésre nem fogjuk tudni megmondani, hogy mennyi lesz a várható érték! Tegyük fel, hogy nem egy, hanem két metró meg ugyanabba az irányba, az egyik 3, a másik 5 perces követési idővel, viszont bármennyi lehet a kettő közötti eltérés, és ez esetben szeretnénk meghatározni azt, hogy mennyi a várható várakozás!

Már az eloszlásfüggvény sem egyszerű ebben az esetben! Az $F(x)$ itt is azt jelenti, hogy mekkora az esélye annak, hogy legfeljebb $x$ percet várunk. Valójában egyszerűbb azt meghatározni, hogy mekkora annak az esélye, hogy legalább $x$ percet kell várnunk, majd 1-ből ki kell vonni.

Először is határozzuk meg külön-külön:

  • Annak az esélye, hogy a 3 perces követési idővel közlekedő metróra legalább $x$ percet kell várni, $\frac{3-x}{3}$ (feltéve, hogy $0 \le x < 3$).
  • Annak az esélye, hogy az 5 perces követési idővel közlekedő metróra legalább $x$ percet kell várni, $\frac{5-x}{5}$ (feltéve, hogy $0 \le x < 5$).

A két metró egymástól független, így annak az esélye, hogy legalább $x$ percet kell várnunk az elsőként érkezőre: $\frac{3-x}{3}\cdot\frac{5-x}{5}$. Mivel a maximális várakozási idő 3, ezért feltesszük, hogy $0 \le x < 3$. Vonjuk ki 1-ből, mivel mi arra vagyunk kíváncsiak, hogy mekkora az esélye annak, hogy legfeljebb ennyit kell várni, és rendezzük át is egy kicsit:
$F(X) = P(X<x) = 1-\frac{3-x}{3}\cdot\frac{5-x}{5} = \frac{15-(15-8x+x^2)}{15} = \frac{8x-x^2}{15}$

Összefoglalva, a teljes eloszlásfüggvény:
$F(x)=\begin{cases} 0 & \text{ha $x<0$} \\ \frac{8x-x^2}{15} & \text{ha $0\le x<3$} \\ 1 & \text{ha $x\ge 3$}\end{cases}$

Ez az egyszerű feladat már itt "kezd elszabadulni"!

Az alábbi diagram illusztrálja az eloszlásfüggvényt:

metro-eloszlas.png

A sűrűségfüggvény az eloszlásfüggvény deriváltja. 0 és 3 közötti értékekre:
$f(x) = F(x)' = \left(\frac{8x-x^2}{15}\right)' = \frac{8-2x}{15}$

Összefoglalva minden lehetséges értékre:
$f(x)=\begin{cases} 0 & \text{ha $x<0$} \\ \frac{8-2x}{15} & \text{ha $0\le x<3$} \\ 0 & \text{ha $x\ge 3$}\end{cases}$

A sűrűségfüggvény a következőképpen néz ki:

metro-suruseg.png

A várható érték a sűrűségfüggvényből adódik:
$E[X] = \int_{0}^{3}x\cdot \frac{8 - 2x}{15}dx = \int_{0}^{3}\frac{8x - 2x^2}{15}dx = \left[\frac{4x^2 - \frac{2}{3}\cdot x^3}{15}\right]^3_0 = \frac{36 - 18}{15} = \frac{6}{5}$

A feladat megoldása tehát $\frac{6}{5}$ perc, azaz 1 perc és 12 másodperc.

A várható érték az alábbi függvény alatti terület:
metro-varhato.png

Végül a szórást is határozzuk meg, a $D[X] = \sqrt{E[X^2]-E^2[X]}$ képlet segítségével!
$E[X^2] = \int\limits_0^3x^2\cdot\frac{8-2x}{15}dx = \int\limits_0^3\frac{8x^2-2x^3}{15}dx = \left[\frac{\frac{8x^3}{3}-\frac{x^4}{2}}{15}\right]_0^3 = \left[\frac{16x^3-3x^4}{90}\right]_0^3 = \frac{16\cdot3^3-3\cdot3^4}{90} = \frac{16\cdot 27 - 243}{90} = \frac{189}{90}$

Visszahelyettesítve:
$D[X] = \sqrt{E[X^2]-E^2[X]} = \sqrt{\frac{189}{90}-\left(\frac{6}{5}\right)^2} = sqrt{\frac{33}{50}} \approx 0,812$

A szórás kb. 49 másodperc.

Diszkrét valószínűségi eloszlások

A fenti képletekkel elvben minden valószínűségi változó várható értékét és szórását ki tudjuk számolni. A valószínűségi változók döntő többségét viszont típusokba tudjuk sorolni. Ezeket amiatt érdemes megismernünk, mert ha egy feladatban felismerjük azt, hogy milyen valószínűségi eloszlásról van szó, akkor a fáradtságos munkát, amit könnyen elszámolunk, meh tudjuk spórolni.

A valószínűségi eloszlásokat két fő csoportba oszthatjuk: diszkrét és folytonos. Először lássuk a diszkrét eloszlásokat! Néhány tipikus diszkrét esemény, melyből diszkrét valószínűségi változó definiálható:

  • Érmedobás: pl. ötször feldobunk egy szabályos érmét; mekkora eséllyel lesz pontosan 3 fej és 2 írás?
  • Kockadobás: pl. addig dobálunk egy szabályos hat oldalú kockát, amíg hatost nem dobtunk; mekkora a dobások számának várható értéke?
  • Kártya: pl. egy szabályos magyar kártya pakliból kihúzunk egyszerre két lapot; mekkora eséllyel lett mindkettő makk?
  • Golyók: pl. egy urnában 10 golyó van, 7 piros és 3 kék, kihúzunk kettőt; mekkora eséllyel húztunk egy pirosat és egy kéket?

A golyós példa kellően általános ahhoz, hogy azon keresztül mutatom be a leggyakoribb diszkrét valószínűségi eloszlásokat.

Bernoulli

Egy urnában 10 golyó van, 7 piros és 3 kék. Véletlenszerűen kihúzunk egyet. Mekkora eséllyel lesz a golyó piros?

Ebben az esetben a valószínűségi változó kétféle értéket vehet fel, az egyiket $p$, a másikat $1-p$ eséllyel. Ez utóbbit $q$-val is szokás jelölni.

  • Valószínűség: $P(X=1)=p$, $P(X=0)=1-p=q$
  • Várható érték: $E[X]=p$
  • Szórás: $D[X]=\sqrt{p\cdot(1-p)}$

A feladat megoldása: $P(X=piros)=p=\frac{7}{10}=0,7$.

Tipikus példa egyébként erre a fej vagy írás játék, ahol $p=0,5$.

Binomiális

Egy urnában 10 golyó van, 7 piros és 3 kék. Véletlenszerűen kihúzunk egyet, majd visszatesszük, jól megkeverjük, és ismét húzunk. A húzást összesen 5 alkalommal hajtjuk végre. Mekkora eséllyel húztunk pontosan 2 pirosat? Mennyi a piros golyók húzásának várható értéke?

Ez a Bernoulli általánosítása. A műveletet $n$ alkalommal hajtjuk végre, tehát ennek a valószínűségi változónak két paramétere van: $n$ és $p$. A fenti példában $n=5$ és $p=\frac{7}{10}=0,7$. Visszatevéses mintavételként is szokás illusztrálni.

Valószínűség:
$P(X=k)=\binom{n}{k}\cdot p^k\cdot(1-p)^{n-k}$

Várható érték:
$E[X]=n\cdot p$

Szórás:
$D[X]=\sqrt{n\cdot p\cdot(1-p)}$

A feladat megoldása: $P(X=2) = binom{5}{2}\cdot 0,7^2\cdot 0,3^3 = 10\cdot 0,49\cdot 0,027 = 0,1323 = 13,23\%$.

A piros golyók húzásának a várható értéke: $E[X]=5\cdot 0,7 = 3,5$.

További példák:

  • Egyszerre 5 darab érmével dobunk, és megszámoljuk a fejek számát ($n=5$, $p=0,5$).
  • Egy pakli magyar kártyából ötször húzunk lapot visszatevéssel és újra keveréssel, és megszámoljuk, hogy hányszor húztunk makkot. Itt $n=5$, $p=0,25$.

Diszkrét egyenletes

Egy urnában 10 golyó van, 1-től 10-ig sorszámozva. Véletlenszerűen kihúzunk egyet. Mekkora a kihúzott golyón található szám várható értéke?

A felvehető értékek halmaza véges, a lehetséges értékek számok, és mindegyik elemnek ugyanakkora a valószínűsége. A darabszámot $n$-nel, az egyes értékeket [[ x_i ]]-vel jelöljük.

Valószínűség:
$P(X=x_i) = \frac{1}{n}$

Várható érték:
$E[X]=\frac{\sum\limits_{i=1}^n x_i}{n}$

Szórás:
$D[X]=\sqrt{\frac{\sum\limits_{i=1}^n x_i^2}{n} - \left(\frac{\sum\limits_{i=1}^n x_i}{n}\right)^2}$

A bevezető feladta megoldása: $E[X]=\frac{1+2+3+4+5+6+7+8+9+10}{10}=5,5$.

Másik példa: kockadobás. Itt $n=6$, $x_1=1$, $x_2=2$, …, $x_6=6$.

Geometriai

Egy urnában 10 golyó van, 7 piros és 3 kék. Addig húzunk véletlenszerűen visszatevéssel, amíg kéket nem húztunk. Mekkora a várható húzások száma? Mekkora eséllyel kell pontosan 5 alkalommal húznunk?

Ez az eloszlás tehát a siker eléréséhez szükséges lépések száma.

Valószínűség:
$P(X=k)=(1-p)^{k-1}\cdot p$

Várható érték:
$E[X]=\frac{1}{p}$

Szórás:
$D[X]=\sqrt{\frac{1-p}{p^2}}$

A feladat megoldása: itt $p=\frac{3}{10}=0,3$, tehát $E[X]=\frac{1}{0,3}=\frac{10}{3}\approx 3,33$.

Annak az esélye, hogy pont ötször kell húzni: $P(X=5)=0,7^4\cdot 0,3 = 0,07203 = 7,203\%$.

További példák:

  • Hány dobásból dobunk hatost? ($\frac{1}{6}$)
  • Egy pakli magyar kártyából visszatevéssel hány húzással húzunk makkot? ($\frac{1}{4}$)

Hipergeometrikus

Egy urnában 10 golyó van, 7 piros és 3 kék. Visszatevés nélkül kihúzunk 5 golyót. Mekkora eséllyel lesz pontosan 3 piros és 2 kék?

A hipergeometrikus eloszlás szemléletes jelentése: van $N$ termékünk, melyből $M$ selejtes. Kihúzunk $n$ darabot. Mekkora eséllyel lesz pont $k$ darab selejtes?

Valószínűség:
$P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}$ (a nevező személetes jelentése: ennyiféleképpen tudunk kihúzni $N$ elemből $n$ darabot; a számláló szemléletes jelentse: a selejtesekből ennyiféleképpen tudunk $k$ darabot kiválasztani, ill. a nem selejtesekből nem selejtest)

Várható érték:
$E[X]=\frac{nM}{N}$

Szórás:
$D[X]=\sqrt{n\cdot\frac{M}{N}\cdot(1-\frac{M}{N})\cdot\frac{N-n}{N-1}}$

A felvezető feladat megoldása: $N=10$, $M=7$, $n=5$, $k=3$ jelölésekkel, a képletbe helyettesítve:
$P(k=3)=\frac{\binom{7}{3}\binom{3}{2}}{\binom{10}{5}} = \frac{35\cdot 3}{252} \approx 0,4167 \approx 41,67\%$

A lottósorsolás is ebben a kategóriába esik, ahol a főnyeremény esélye $N=90$, $M=5$, $n=5$, $k=5$ értékekkel számolva $P(X=k)=\frac{\binom{5}{5}\cdot\binom{85}{0}}{\binom{90}{5}}= \frac{1}{43949268}$

Poisson

Egy gyárban piros és kék golyókat gyártanak, és külön dobozokba csomagolják. A golyók némileg összekeverednek, így a piros golyókat tartalmazó csomagokba is kerülnek kék golyók, mégpedig 5 dobozonként egy. Egy dobozba több kék golyó is kerülhet, tehát pl. ez az arány úgy is előfordulhat, hogy van 9 olyan doboz, melyben nincs kék golyó, és egy olyan, melyben 2 is. Találomra kiválasztunk egy piros golyókat tartalmazó dobozt. Mekkora eséllyel lesz benne pontosan 2 kék golyó?

Az eloszlás általános szemléletes jelentése: tegyük fel, hogy van $m$ darab dobozunk. Ezekbe szeretnénk elhelyezni $n$ darab szemcsét. Egy dobozba akármennyi szemcse kerülhet. Annak az esélye, hogy egy adott szemcse egy bizonyos dobozba kerül, $p=\frac{1}{m}$. A szemcsék és a dobozok aránya itt a legfontosabb paraméter, melynek a jelölése $\lambda$. Tehát $\lambda=\frac{n}{m}$. Ebben az eloszlásban tehát - ellentétben az eddigiekkel - a várható érték adott ($\lambda$), és a valószínűséget szeretnénk meghatározni: mi a valószínűsége annak, hogy egy dobozba pontosan $k$ szemcse jut.

A binomiális eloszlás alapján adott $n$, $p=\frac{1}{m}$ és $k$ értékekre adódik a következő:
$P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}$

A feladat ennek az értéknek a meghatározása akkor, ha $m$ és $n$ tart végtelenbe. Emiatt mondjuk azt, hogy a Poisson eloszlás binomiális eloszlás határeloszlása.

Vegyük észre a két aprónak tűnő, de lényeges eltérést a hipergeometrikus és a Poisson eloszlás között!

  • A hipergeometrikus eloszlásban az összes esetszámnak egy része (részhalmaza) a számunkra kitüntetett eset, míg a Poisson eloszlás esetén egy adott esetre több kitüntetett eset is juthat. Ez utóbbi esetben az összes esetszám más dimenziójú, mint a kitüntetett esetek.
  • A hipergeometrikus eloszlás véges, míg a Poisson elvileg egy végtelen sorozat határértéke. Figyeljük meg az alábbi megfogalmazások közötti árnyalatnyinak tűnő eltérést, amelyek teljesen más valószínűségi változót eredményeznek:
    • 100, piros golyókat tartalmazó dobozból 5-be került kék golyó is - hipergeometrikus.
    • 100, piros golyókat tartalmazó dobozba összesen került 5 kék golyó - binomiális, mert véges.
    • 100, piros golyókat tartalmazó dobozonként átlagosan 5 kék golyó kerül - Poisson, mert nagyon nagy, végtelennek tekinthető.

Valószínűség:
$P(X=k)=\frac{\lambda^k}{k!}\cdot e^{-\lambda}$ (formálisan ez a Poisson eloszlás definíciója; a valóságban inkább pont ezt határozzuk meg)

Várható érték:
$E[X]=\lambda$

Szórás:
$D[X]=\sqrt{\lambda}$

A várható érték és a variancia tehát megegyezik.

A fenti feladat megoldása: $\lambda=\frac{1}{5}=0,2$, $k=2$, tehát:
$P(X=2)=\frac{0,2^2}{2!}\cdot e^{-0,2} \approx 0,0164 \approx 1,64%$

További példák:

  • Egy könyvkiadónál 100 oldalanként van 20 gépelési hiba. Mekkora eséllyel lesz egy adott könyv 123. oldalán gépelési hiba? ($\lambda=\frac{20}{100}=\frac{1}{5}=0,2$; annak az esélye, hogy nincs gépelési hiba: $P(X=0)=\frac{0,2^0}{0!}\cdot e^{-0,2}\approx 0,8187 \approx 81,87\%$; annak az esélye, hogy van gépelési hiba: $P(X>0) = 1-P(X=0) \approx 0,1813\approx 18,13\%$)
  • 100 laptopra 5 pixelhiba jut. Mekkora esélye van annak, hogy egy adott laptopon pontosan két pixelhiba van? ($\lambda=0,05$, $k=2$, $P(X=2)=\frac{0,05^2}{2!}\cdot e^{-0,05}\approx 0,00119 \approx 0,119%$)

Folytonos valószínűségi eloszlások

A folytonos valószínűségi változók egy folytonos intervallum tetszőleges értékét felvehetik. Ebben az esetben egy-egy konkrét érték valószínűsége nulla, így az eloszlásfüggvényt, és a sűrűségfüggvényt adjuk meg.

Egyenletes

Az egyenletes valószínűségi változók esetén egy $a-b$ intervallum minden értéket egyforma valószínűséggel vehet fel a valószínűségi változó.

Eloszlásfüggvény:
$F(x)=\begin{cases} 0 & \text{ha $x<a$}\\ \frac{x-a}{b-a} & \text{ha $a\le x\le b$} \\ 1 & \text{ha $x>b$}\end{cases}$

Sűrűségfüggvény:
$f(x)=\begin{cases} \frac{1}{b-a} & \text{ha $a\le x<b$} \\ 0 & \text{ha $x<a$ vagy $x>b$}\end{cases}$

Várható érték:
$E[X]=\frac{a+b}{2}$

Szórás:
$D^2[X] = \frac{b-a}{\sqrt{12}}$

Példa: várakozás a metróra.

Exponenciális

Két véletlen esemény között eltelt idő, pl. egy call centerben két hívás között eltelt idő. Paramétere a $\lambda$.

Eloszlásfüggvény:
$F(x;\lambda)=\begin{cases} 1-\lambda e^{\lambda e} & \text{ha $x\ge 0$} \\ 0 & \text{ha $x<0$}\end{cases}$

Sűrűségfüggvény:
$f(x;\lambda)=\begin{cases} \lambda e^{\lambda e} & \text{ha $x\ge 0$} \\ 0 & \text{ha $x<0$}\end{cases}$

Várható érték:
$E[X]=\frac{1}{\lambda}$

Szórás:
$D[X] = \frac{1}{\lambda}$

A várhatóérték és a szórás tehát megegyezik.

Normális

Ez az ún. haranggörbe eloszlás, mivel a sűrűségfüggvény haranggörbe alakot vesz fel. A normális eloszlást a várható értékkel ($\mu$) és a szórással ($\sigma$) definiáljuk. Speciális esetben a standard normális eloszlás esetén $\mu=0$ és $\sigma=1$.

A sűrűségfüggvény és az eloszlásfüggvény ebben az esetben inkább csak érdekes mint hasznos:

$f(x) = \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

$F(x) = \frac{1}{\sigma\sqrt{2\pi}}\int\limits_{-\infty}^x e^{-\frac{(x-\mu)^2}{2\sigma^2}}dt$

A várható érték ls a szórás pedig a paraméterrel adott:

$E[X]=\mu$

$D[X]=\sigma$

Olyan feladatot igen ritkán látunk, melyben bármit meg kellene határozni egy normális eloszlás esetén, mivel a várható érték és a szórás adott, az eloszlás- ill. sűrűségfüggvény valójában szintén, és táblázatokból kiolvasható az eredmény. Ennek az eloszlásnak inkább elméleti jelentősége van, mégpedig a centrális határeloszlás tétel miatt, ami kimondja, hogy adott feltételek mellett, elegendően nagy számú és független valószínűségi változó középértéke (várható értéke) jó közelítéssel normális eloszlású, ha a független valószínűségi változók jól meghatározott középértékkel és szórásnégyzettel rendelkeznek. (Ezt a definíciót a https://hu.wikipedia.org/wiki/Centrális_határeloszlás-tétel oldalról másoltam.) Ez azt jelenti, hogy ha veszünk (a feltételeknek megfelelő) tetszőleges valószínűségi változót, abból $n$ darabot (ahol $n$ "elég nagy"), azokat átlagoljuk, majd ezt a kísérletet sokszor megismételjük, akkor az eredmény (mármint az átlagok eloszlása) közel normális eloszlású lesz. Az, hogy mi az "elég nagy", a valószínűségi változótól is függ. Dobókocka esetén már 4-5 is megfelelő lehet, de pl. egy binomiális eloszlású valószínűségi változó esetén akár 20-30-ra is szükség lehet.

A kockadobással, mint valószínűségi változóval nagyon jól lehet ezt illusztrálni, ahogy az alábbi ábra is illusztrálja (forrás: https://upload.wikimedia.org/wikipedia/commons/8/8c/Dice_sum_central_limit_theorem.svg):
kocka_cht.png
  • Egyetlen kocka esetén mind a 6 lehetséges érték $\frac{1}{6}$ eséllyel fordul elő.
  • Két kocka esetén a dobások összege (átlag helyett vehetjük az összeget is) "középen" valószínűbb, mint a "széleken", a valószínűségeket ábrázoló diagram viszont még inkább hasonlít egy szabályos háromszögre mint egy haranggörbére.
  • Három kocka összege már távolról és hunyorítva egész jól illeszkedik a haranggörbére.
  • Négy és öt kocka esetén már szinte nem is igazán látszik a különbség, annyira "belesimul" a haranggörbébe.
Binomiális eloszlás esetén már "lassabban simul" a haranggörbére, ahogy az alábbi animáción is látható (ennek a forrása a fent említett Wikipédia oldal):
binom_cht.gif

Alacsonyabb értékekre ez még eléggé "ferde"; a fent említett 20-30 felett viszont már ez is egész szépen "belesimul".

Mit jelent ez a gyakorlatban? Példaként vegyük az emberek testmagasságát! Ennek az eloszlása messze nem normális, viszont ha véletlenszerűen vesszük mondjuk 10 ember testmagasságát, azt átlagoljuk, majd ezt nagyon sokszor megismételjük, akkor ezek az átlagok már jól közelítik a normális eloszlást.

Statisztikai alapfogalmak

Nehéz megmondani, hogy a statisztika a valószínűségszámítás része vagy fordítva, esetlege egymástól függetlenek, és ez utóbbi esetben hol a határ. Talán a határt az képezi, hogy míg a valószínűségszámítás egyfajta elméleti dolog, addig a statisztika konkrét adatokból építkezik.

Néhány olyan fogalom, amely inkább a statisztika területére vonatkozik:

  • Átlag: szinte ez az a statisztikai fogalom, amit legszélesebb körben alkalmaznak: átlagfizetés, a jegyek átlaga, az emberek várható átlagos élettartama (és nem életkora!) stb. Kiszámítása: összeadjuk a rendelkezésre álló adatokat, és elosztjuk az adatok számával. Az átlag sok mindenre jó, és sok mindenre nem. Megfelelően alkalmazva alkalmas összehasonlításra: pl. korábbi értékekkel, vagy másokkal (pl. meg tudjuk mondani, hogy a mai nettó átlagfizetés mennyiben tér el egyrészt az 5 évvel korábbitól, másrészt más országok átlagától). Ugyanakkor elfed fontos dolgokat elfed: értékek eloszlását, a szórást stb. Nagyon könnyű ugyanakkor félreérteni. A legtöbb vitát a témában valószínűleg az átlagfizetés váltja ki, ugyanis önkéntelenül is a legtöbb embert az átlagfizetést az átlagember fizetésével azonosítja, azonban ez messze nincs így! Ha a fizetéseket nagyság szerint sorba rendezzük, akkor egész jó közelítéssel egy exponenciális görbét kapunk. Az átlag a kimagasló értékek miatt magasan lesz. Az átlagember fizetését a medián sokkal jobban kifejezi (ld. lejjebb), és a fizetések esetében az mindig sokkal alacsonyabb, mint az átlag.
  • Számtani közép, mértani közép, harmonikus közép: a számtani közép a tulajdonképpeni átlag ($A=\frac{a_1+a_2+…+a_n}{n}$; itt az $A$ az aritmetikaira utal), a mártani közép esetén szorzunk és gyököt vonunk ($G=\sqrt[n]{x_1\cdot x_2\cdot …x_n}$$ $G$ mint geometriai), harmonikus közép esetén pedig a reciprok összegek reciprokát vesszük ($H=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+…+{x_n}}$). Összefüggés a három érték között: $H \le G \le M$
  • Medián: a középső értéket jelenti. Az 1, 2, 3, 4, 5 esetben ez tehát a 3. Nem érzékeny a kiugró értékekre, pl. az 1, 2, 3, 4, 5, 6, 7, 8, 150 mediánja az 5. Páros elemszám esetén a medián értéke a két középső elem átlaga.
  • Decilisek, centilisek, percentilisek: szorosan kapcsolódnak a mediánhoz. Decilis esetben ha elég sok értékünk van, sorba rendezzük, 10 egyenlő részre osztjuk, és vesszük a határokon az értékeket. A centilisek ill. percentilisek esetén 100 részre osztjuk. Általában kitüntetett szerepe van az alsó és a felső decilistnek (azaz a 10. és a 90. centilisnek, azaz a 10%-nak és a 90%-nak), pl. a fizetések esetén az számít kimagaslónak, aki a felső 10%-ba tartozik.
  • Maximum, minimum: általában kíváncsiak vagyunk arra, hogy mekkora a legkisebb és a legnagyobb elem.
  • Módusz: a leggyakoribb elemet jelenti, pl. az 1, 2, 4, 4, 4, 5, 8, 8 esetében ez a 4.

Klasszifikáció

A valószínűségszámítási és statisztikai témától a gépi tanulás felé tett első lépés a klasszikfikáció: ismert példákból kiindulva megpróbáljuk megbecsülni más esetekben, ismert adatok alapján az ismeretlent. Ilyen például a várható élettartam: azokból tudunk kiindulni, akik már meghaltak, és ismerjük az alapadatait (neme, mikor született, hol élt, milyen volt az iskolai végzettsége, milyen volt a lakása, mekkora volt a testsúlya, a vérnyomása, volt-e káros szenvedélye stb.), és az élő emberek hasonló adataiból próbálunk következtetni.

Ezzel kapcsolatos néhány fogalmat vizsgálunk meg.

Pontosság (accuracy): a számított és a tényleges érték közötti eltérés. Ha valakinek a várható élettartama 72 év, és ténylegesen 75 évet élt, akkor ez az érték tehát 3 év. Ezeket az értékeket célszerű átlagolni; ez esetben azt kapjuk eredményül, hogy átlagosan mekkorát téved az adott módszer.

Precizitás (precision): azt jelenti, hogy a becslés mennyire stabil, tehát kb. ugyanarra az inputra milyen mértékben ad ugyanolyan outputot.

Könnyű összetéveszteni a pontosságot és a precizitást, álljon itt 4 eset. Tegyük fel, hogy a tényleges érték 100, és van 5 számításunk.

  • Nagy pontosság és nagy precititás: 99, 102, 100, 99, 101
  • Nagy pontosság, de alacsony precizitás: 95, 104, 102, 99, 96
  • Nagy precizitás, de alacsony pontosság: 92, 91, 93, 92, 93
  • Alacsony pontosság és alacsony precizitás: 82, 91, 84, 83, 90

Sok esetben nem számszerűsítünk, hanem adott halmazokba soroljuk az elemeket. Ennek legegyszerűbb esete az, amikor két kategória közül kell választani. Tipikus példája ennek a bírósági döntés, azaz hogy a vádlott ártatlan vagy bűnös. Ezzel kapcsolatos fogalmak:

  • Null-hipotézis: fel kell állítani egyfajta alapot, amihez képest nézzük az eltérést. A büntető jog alaptézise az, hogy minden embert ártatlannak kell tekinteni mindaddig, amíg a bűnössége be nem bizonyosodik. Ebben az esetben a null-hipotézis tehát az, hogy a vádlott ártatlan. Betegségek esetén a null-hipotézis az, hogy a páciens egészséges, stb.
  • Alternatív hipotézis: a null-hipotézis ellentettje, pl. a vádlott bűnös.
  • Valós pozitív: helyesen vetjük el a null hipotézist. Ilyen például a bűnös elítélése.
  • Valós negatív: helyesen tartjuk meg a null hipotézist. Pl. a bíróság felmenti az ártatlant.
  • I-es típusú hiba, álpozitív: elvetjük a null-hipotézist, de nem lett volna szabad. Például a bíróság elítéli az ártatlant.
  • II-es típusú hiba, álnegatív: nem vetjük el a null-hipotézist, de el kellett volna vetni. Például a bíróság felmenti a bűnöst.
  • III-as típusú hiba (ez még nem általánosan elfogadott): helyesen vetjük el a null-hipotézist, de nem megfelelően jutottunk el erre a döntésre. A jognál maradva: nagyon sok koncepciós per sorolható ide, amelyekben embereket a bűnüknek megfelelő büntetésben részesítettek, de a valódi bűnüket nem vették figyelembe, hanem koholt vádak alapján büntették meg őket.

Tegyük fel, hogy a klasszifikációt sokszor végrehajtjuk. A következő fogalmakat alkothatjuk meg:

  • precizitás = valós pozitív / (valós pozitív + fals pozitív)
  • pontosság = (valós pozitív + valós negatív) / (valós pozitív + valós negatív + fals pozitív + fals negatív)
  • felidézés = valós pozitív / (valós pozitív + fals negatív)
  • valós negatív ráta = valós negatív / (valós negatív + fals pozitív)

Lássunk egy példát! Tegyük fel, hogy van egy betegség (az írás pillanatában a COVID-19 tombol), és van egy gyorsteszt, amely megállapítja, hogy az illető fertőzött-e. Tegyük fel, hogy 100 ember esetében a következő adataink vannak:

  • 95 ember egészséges. A teszt 89-et egészségesnek, 6-ot betegnek mond.
  • 5 ember beteg. Közülük a teszt 4-et betegnek, 1-et egészségesnek mond.

A fenti fogalmak:

  • Precizitás (precision): a betegnek mondott emberek közül hány beteg ténylegesen. Ebben a példában 10 embert mond betegnek, közülük 4 beteg ténylegesen, tehát 40%. Egyénileg mi valójában erre vagyunk kíváncsiak: ha minket a teszt betegnek mond, akkor mekkora eséllyel vagyunk ténylegesen betegek. Egy ritka betegség esetén még egy 99%-os pontosságú teszt esetén is nem túl nagy ez az érték.
  • Pontosság (accuracy): az eltalált esetek és az összes eset hányadosa. Ebben az esetben 89 egészségest és 4 beteget talált el helyese az összesen 100-ból, így a pontosság 93%. Ez általában egy elég nagy érték, és a gyógyszergyártók előszeretettel adják meg ezt a számot.
  • Felidézés (recall): az összes beteg hány százalékát találja meg. Jelen esetben 5 beteg van, melyből 4-et talált meg, azaz a felidézés 80%. A nevező talán kicsit nehezen érthető: jelen esetben 4 valós pozitív és 1 álnegatív eset van, ennek az összege az 5. Társadalmi szinten ennek az értéknek van legnagyobb jelentősége: a teszt a ténylegesen betegek hány százalékát találja meg.
  • Valós negatív ráta (true negative rate): ez a felidézés szimmetrikus esete. Azt mondja meg, hogy az egészséges embere közül hányat mond valóban egészségesnek. A 95 emberből 89-et mondott ebben a példában a teszt egészségesnek, ami kb. 93,7%.

Egy teszt hatékonyságánál általában a pontosságot adják meg, vagy "alá bontják" felidézésre és valós negatív rátára, amelyek elég magas számok. (Egy ritka betegségnél, amelyben kb. tízezer emberből kb. egy érintett, ez az érték nagyon magas.) Ugyanakkor általában mélyen hallgatnak a precizitásról, ami az egyén szempontjából a legfontosabb, és az egy rikta betegség esetén alig pár százalék.

Az alábbi ábra a fenti fogalmakat illusztrálja (az ábra forrása: https://en.wikipedia.org/wiki/Precision_and_recall):

klasszifikacio.png

Gyakori tévedések a valószínűségszámítással és statisztikával kapcsolatban

A statisztikával kapcsolatban nagyon sok a tévhit.

Az egyik leggyakoribb az ún. szerencsejátékosok tévedése: sokan azt gondolják, hogy ha egy véletlen érték sokszor fordult elő, egy másik pedig kevésszer, vagy egyáltalán nem, akkor ez utóbbinak nagyobb eséllyel kell előfordulnia, hogy kiegyenlítődjön az egyforma valószínűségű események bekövetkezési száma. Ha pl. háromszor dobunk egy dobókockával, két ötöst és egy hatost, akkor hajlamosak azt gondolni, hogy a következő dobásokban nagyobb lesz a kis számok esélye.

Ez természetesen nincs így: a dobókockának nincs "memóriája", a korábbi dobások nem befolyásolják a későbbi dobások értékét. Ez mindenre igaz: pl. egy lottósorsolásnál tetszőleges 5 szám kihúzásának az esélye ugyanakkor, mint a múlt heti, vagy az, hogy 1, 2, 3, 4, 5.

Sőt, kicsit elkalandozva a valószínűségszámítás mezejéről, ha egy dobókockával túl sok hatost dobunk, akkor számomra gyanús, hogy a kocka "cinkelt", és ez esetben pont a hatos dobása lesz valószínűbb. Ez is egy érdekes kérdés: mekkora valószínűséggel van csalás a valószínűségben!

Egy másik tévedés a fordított szerencsejátékos tévedés: ha egy ritka esemény bekövetkezik, akkor sokan azt gondolják, hogy már biztosan régóta próbálja. Pl. ha valaki egy dobókockával valaki egymás után dob három hatost, aminek az esélye $\frac{1}{216}$, akkor ezt hajlamos úgy értelmezni, hogy már biztosan túl van több száz dobáson. Ill. ha valaki nyer a lottón, akkor azt diktálja az "igazságérzetünk", hogy már évtizedek óta "kell" lottóznia. Ez sem igaz: egy dobókockával ugyanakkor esélyünk van háromszor hatost dobni akkor is, ha most kezdtük, és akkor is, ha egész éjszaka ezt "gyakoroltuk". És hiába lottózik valaki már évtizedek óta, a mostani héten ugyanakkor esélye van nyerni, mint annak, aki most adja fel az első szelvényét. (És ez fordítva sem igaz: a szűz kéz nem nyer.)

Sokan érvelnek úgy, hogy 50% esélye van valaminek: vagy igen, vagy nem. Mivel vagy megütjük a lottó főnyereményt vagy nem, 50% esélyünk van rá. Azt nem tudom, hogy van-e olyan, aki komolyan is gondolja ezt, vagy csak ezzel győzi meg magát, mivel belül bizonytalan, de annak, aki ezt a szöveget olvassa, talán nem kell részletezni, hogy ez miért nem igaz.

A statisztikával kapcsolatos gyakran idézett mondat Winston Churchillnek tulajdonítják, mely szerint "csak abban a statisztikában hiszek, amit én hamisítottam" (ilyet egyébként Churchill sohasem mondott). A másik sommás vélemény a "kis hazugság, nagy hazugság, statisztika". Az igazság ezzel az, hogy a statisztikával elég jól lehet manipulálni; ezek közül párat a Paradoxonok oldalon is láthatunk. Azonban pusztán amiatt, mert egyesek a hatalmukkal visszaélve torzítják a statisztikát, esetleg csak másikat meg szeretnének viccelni, még nem szabad a statisztikát az áltudományok közé sorolni. Néhány tipikus hiba a statisztikával kapcsolatban:

  • A diagramok manipulatív szerkesztése úgy, hogy a skála nem a 0 ponton indul. Ezzel pl. a növekedést nagyobbnak lehet éreztetni a ténylegesnél.
  • Az adatok forrása nem megbízható, nem ellenőrizhető. Pl. egy nem ellenőrizhető diktatúrából jövő statisztikai adatokat óvatosan kell kezelnünk. De attól, hogy az észak-koreai adatok nem megbízhatóak, nem azt jelenti, hogy mondjuk a német adatok hasonló témában ne lennének megbízhatóak.
  • Statisztikai művelet végrehajtása úgy, hogy a feltételek nem adottak. Például nagyon kevés adatból átlagot számolni, sőt, tendenciára következtetni. Tipikus példa: a gazdaság teljesítményét egyetlen negyedéves pozitív adatból ítélik meg, és nem mondjuk egy évtizedes - valódi - tendencia alapján.
  • A statisztikai adat jelentésének bújtatott félreértése. Pl. az átlagfizetést úgy interpretálni, mintha az az átlagember fizetése lenne.

Mérési skálák

A mérési skálákat 4 csoportba osztja aszerint, hogy milyen műveleteket lehet velük végrehajtani.

A leírásban azt adom vissza, ahogy én megértettem. Számomra a sorrend logikusabb fordítva, mint a szokásos megadás, így ennek alapján adom meg, valamint számomra logikusabb elnevezéseket adtam. Másik megközelítést találhatunk a Wikipédia megfelelő oldalain:

Arányskála

Van nullpontja, és értelmezettek rajta az alapműveletek (összeadás, kivonás, szorzás, osztás). Ez implicit magába foglalja a sorba rendezhetőséget is: tudjuk, hogy melyik a nagyobb.

A hétköznapi életből példaként vegyük a tömeget! Állíthatjuk az alábbiakat:

  • A 6 kg és a 3 kg különböző.
  • A 6 kg több mint a 3 kg.
  • A 6 kg és a 3 kg különbsége ugyanakkora, mint a 8 kg és az 5 kg különbsége.
  • A 6 kg kétszer akkora, mint a 3 kg.

További példák: idő, hossz, áramerősség.

Az aranyskála sok esetben nem lineáris, hanem logaritmikus. Ezt esetben az összeadás és kivonás nehézkes, a hányados képzés viszont leegyszerűsödik. Ilyen skála pl. a hangerő skála, amit decibelben (dB) szoktuk megadni. A dB valójában egy dimenzió nélküli érték. Jelentése a következő: egy Bel (B) azt jelenti, hogy valami egy másik érték tízszerese. Mivel a deci tizedet jelent, 10 dB jelenti azt, hogy az egyik érték a másik tízszerese. A skálának tehát kell, hogy legyen egy alapja, ami a hang esetén a hallásküszöb ($10^{-12}W/m^2$). Az, hogy az egyik hangerősség 80dB, a másik meg 60dB, azt jelenti, hogy az előző százszor akkora hangerő mint az utóbbi.

Intervallum skála

Nincs nullpontja, ezáltal a szorzás és az osztás sem értelmezett. De a különbségképzés igen, valamint a különbségképzésre visszavezetett összeadás is, és a különbségek összehasonlíthatóak.

A hétköznapi értelembe vett hőmérséklet ebbe a kategóriába tartozik. (A tudományos értelembe vett hőmérséklet nem, mert ott van abszolút nullpont, ezáltal az arányskála kategóriába tartozik, de most ettől tekintsünk el, és a hétköznapi tapasztalatot vegyük alapul.) Állíthatjuk az alábbiakat:

  • A 6°C és a 3°C különböző.
  • A 6°C melegebb (több) mint a 3°C.
  • A 6°C és a 3°C különbsége ugyanakkora, mint a 8°C és az 5°C különbsége.

De nem mondhatjuk a következőt: a 6°C kétszer akkora, mint a 3°C.

Ez utóbbi talán nem világos elsőre, ezért nézzük meg egy kicsit részletesebben! Tekintsünk más mértékegységet! Az arányskálában bemutatott mondatokat át lehet alakítani mondjuk fontba, és (az egyszerűség érdekében az 1 kg-ot 2 fontnak véve) van értelme annak, hogy "a 12 font kétszer akkora, mint a 6 font", és a többi is igaz. De vajon ez alkalmazható-e pl. a Fahrenheit-ra? Lássuk!

  • A 42,8°F és a 37,4°F különböző: ez igaz.
  • A 42,8°F több mint a 37,4°F: ez is igaz.
  • A 42,8°F melegebb (több) mint a 37,4°F: szintén igaz.
  • A 42,8°F kétszer akkora, mint a 37,4°F: ez nyilván nem igaz! Pedig igaznak kellene lennie, ha az az állítás, hogy a "6°C kétszer akkora, mint a 3°C" igaz lenne.

A fentiek alapján tehát a hétköznapi értelembe vett hőmérséklet intervallum skála, de nem arányskála. A tudományos értelembe hőmérséklet esetében - mivel van 0 pontja - lehet kétszerezni, és a 3°C kétszerese közel 280°C, mivel először a 3°C-ot átalakítjuk Kelvinbe (275,15°K), azt megszorozzuk kettővel (552,3°K), majd visszaalakítjuk Celsiusszá (279,15°C).

Egyfajta intervallumskála még az IQ.

Sorrendi skála

A szorzáson és az osztáson túl az összeadás és a kivonás sem értelmezett, viszont sorba rendezhető. Ennél fogva bizonyos statisztikai mérőszámok is (többnyire) értelmezettek, mint pl.:

  • Legkisebb ill. legnagyobb elem.
  • Medián.
  • Gyakoriság.

Példaként vehetjük a katonai rendfokozatokat! Állíthatjuk az alábbiakat:

  • Az altábornagy és a főtörzsőrmester rendfokozat különböző.
  • Az altábornagy magasabb rendfokozat (azaz több) mint a főtörzsőrmester.

Viszont nem képezhetjük a rangfokozatok különbségét, ill. azokat nem tudjuk összehasonlítani. Pl. nem tudjuk megállapítani, hogy melyik két rang között nagyobb a különbség: a dandártábornok és a főhadnagy, vagy az alezredes és a főtörzszászlós. És természetesen olyasmit sem mondhatunk, hogy a százados ötször nagyobb rendfokozat, mint a szakaszvezető.

A statisztikai példáknál, a Magyar Honvédségnél az írás pillanatában alkalmazott rendfokozatokkal kapcsolatban:

  • A legalacsonyabb rendfokozat az őrvezető (ill. az alatti a közkatona, ami rendfokozat nélküli), a legmagasabb pedig a vezérezredes. (Magyarországon nincs tábornagy és marsall sem, amelyek magasabb katonai rendfokozatok.)
  • A fentieket figyelembe véve 19 rendfokozat van, melynek mediánja a 10. elem, ami a hadnagy.
  • A megfelelő minisztériumban pontosan tudják, hogy melyik rendfokozattal hány ember rendelkezik.

További példák: betegségek előrehaladottsági mértékei, ásványok keménysége.

Kategória skála

Semmilyen művelet nem értelmezhető, még a sorba rendezhetőség sem. De két elem között különbséget tudunk tenni.

Példaként vegyük az állampolgárságot! Mondhatjuk, hogy állampolgárságát tekintve külön kategóriába esik a magyar állampolgár, és mondjuk az osztrák-német kettős állampolgár, de nem tudjuk sorba rendezni őket: nincs közöttük egyértelmű sorrendiség. Nem értelmezett a legkisebb elem és legnagyobb elem fogalma sem, így a medián sem. Nyilván nem tudunk különbséget képezni, és szorozni sem.

A statisztikában viszont gyakoriság képezhető: elvileg megállapítható, hogy hány magyar állampolgár van, ahogy az osztrák-német kettős állampolgárok száma is. Ez alapján nyilván sorba rendezhető, de ez nem képez minőségi sorrendet.

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License