Statistiky
Statistika je obor aplikované matematiky, který se zabývá sběrem, uspořádáním, analýzou, interpretací a prezentací dat. Popisná statistika shrnuje údaje. Inferenční statistika umožňuje předpovídat. Statistika pomáhá při studiu mnoha dalších oborů, například vědy, medicíny, ekonomie, psychologie, politiky a marketingu. Osoba, která se zabývá statistikou, se nazývá statistik. Kromě toho, že je slovo "statistika" názvem studijního oboru, označuje také čísla, která se používají k popisu dat nebo vztahů.
Historie
První známou statistikou jsou údaje ze sčítání lidu. Babylóňané prováděli sčítání lidu kolem roku 3500 př. n. l., Egypťané kolem roku 2500 př. n. l. a staří Číňané kolem roku 1000 př. n. l.
Od 16. století matematici, jako například Gerolamo Cardano, rozvíjeli teorii pravděpodobnosti, díky níž se statistika stala vědou. Od té doby lidé shromažďují a studují statistiky o mnoha věcech. Stromy, hvězdice, hvězdy, kameny, slova, téměř vše, co lze spočítat, bylo předmětem statistiky.
Sběr dat
Než můžeme popsat svět pomocí statistiky, musíme shromáždit data. Data, která ve statistice sbíráme, se nazývají měření. Poté, co shromáždíme data, použijeme k popisu každého pozorování nebo měření jedno nebo více čísel. Předpokládejme například, že chceme zjistit, jak populární je určitý televizní pořad. Z celkové populace diváků můžeme vybrat skupinu lidí (tzv. vzorek). Pak se každého diváka ve vzorku zeptáme, jak často se na pořad dívá. Vzorek jsou data, která vidíte, a populace jsou data, která nevidíte (protože jste se neptali každého diváka v populaci). Jiný příklad: Pokud chceme zjistit, zda určitý lék pomáhá snižovat krevní tlak, můžeme tento lék podávat lidem po určitou dobu a měřit jejich krevní tlak před a po.
Popisná a inferenční statistika
Čísla, která popisují data, která můžete vidět, se nazývají popisná statistika. Čísla, která předpovídají data, která nevidíte, se nazývají inferenční statistika.
Popisná statistika zahrnuje použití čísel k popisu vlastností dat. Například průměrná výška žen ve Spojených státech je popisná statistika, která popisuje vlastnost (průměrnou výšku) populace (žen ve Spojených státech).
Jakmile jsou výsledky shrnuty a popsány, mohou být použity pro předpovědi. Tomu se říká inferenční statistika. Jako příklad lze uvést velikost zvířete závislou na mnoha faktorech. Některé z těchto faktorů jsou řízeny prostředím, ale jiné jsou podmíněny dědičností. Biolog proto může vytvořit model, který říká, že existuje vysoká pravděpodobnost, že potomek bude malý, pokud byli malí rodiče. Tento model pravděpodobně umožňuje předpovídat velikost lépe než pouhým náhodným odhadem. Testování, zda lze určitý lék použít k vyléčení určitého stavu nebo nemoci, se obvykle provádí porovnáním výsledků lidí, kterým je lék podáván, s výsledky lidí, kterým je podáváno placebo.
Metody
Statistické údaje nejčastěji shromažďujeme pomocí průzkumů nebo experimentů. Jedním z druhů průzkumu je například průzkum veřejného mínění. Vybereme malý počet lidí a položíme jim otázky. Jejich odpovědi pak použijeme jako data.
Výběr osob, které se zúčastní průzkumu nebo sběru dat, je důležitý, protože přímo ovlivňuje statistické údaje. Když je statistika hotová, nelze již určit, které osoby jsou brány. Předpokládejme, že chceme měřit kvalitu vody velkého jezera. Pokud odebereme vzorky vedle odpadní stoky, dostaneme jiné výsledky, než když vzorky odebereme na vzdáleném, těžko přístupném místě jezera.
Při odběru vzorků se běžně vyskytují dva druhy problémů:
- Pokud je vzorků mnoho, budou se pravděpodobně velmi blížit tomu, jaké jsou ve skutečné populaci. Pokud je však vzorků velmi málo, mohou se velmi lišit od toho, jaké jsou ve skutečné populaci. Tato chyba se nazývá náhodná chyba (viz Chyby a rezidua ve statistice).
- Jedince pro vzorky je třeba pečlivě vybírat, obvykle se vybírají náhodně. Pokud tomu tak není, mohou se vzorky velmi lišit od toho, jaké jsou ve skutečnosti v celé populaci. To platí i v případě, že je odebráno velké množství vzorků. Tento druh chyby se nazývá bias.
Chyby
Náhodné chyby můžeme snížit výběrem většího vzorku a náhodným výběrem se můžeme vyhnout určitému zkreslení. Někdy je však obtížné získat velké náhodné vzorky. A ke zkreslení může dojít, pokud se různých lidí nezeptáme, nebo pokud odmítnou odpovědět na naše otázky, nebo pokud vědí, že dostávají falešnou léčbu. Tyto problémy lze těžko odstranit. Viz také standardní chyba.
Popisná statistika
Nalezení středu dat
Střední hodnota dat se nazývá průměr. Průměr vypovídá o typickém jedinci v populaci. Často se používají tři druhy průměru: průměr, medián a modus.
Níže uvedené příklady používají tato vzorová data:
Název | A B C D E F G H I J --------------------------------------------- skóre| 23 26 49 49 57 64 66 78 82 92Průměr
Vzorec pro průměr je následující
x¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}}.
Kde x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}} jsou data a N {\displaystyle N} je velikost populace. (viz Sigma notace).
To znamená, že sečtete všechny hodnoty a pak je vydělíte počtem hodnot.
V našem příkladu x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}
Problém s průměrem spočívá v tom, že nevypovídá nic o tom, jak jsou hodnoty rozloženy. Hodnoty, které jsou velmi velké nebo velmi malé, průměr velmi mění. Ve statistice mohou být tyto extrémní hodnoty chybou měření, ale někdy populace tyto hodnoty skutečně obsahuje. Například pokud je v místnosti 10 lidí, kteří vydělávají 10 USD/den, a 1, který vydělává 1 000 000 USD/den. Průměrná hodnota údajů je 90 918 USD/den. Přestože se jedná o průměrnou částku, průměr v tomto případě není částkou, kterou vydělává každá jednotlivá osoba, a je tedy pro některé účely nepoužitelný.
Jedná se o "aritmetický průměr". Pro některé účely jsou užitečné i jiné druhy.
Medián
Medián je prostřední položka dat. Pro zjištění mediánu seřadíme data od nejmenšího čísla po největší a poté vybereme číslo uprostřed. Pokud je údajů sudý počet, nebude číslo přímo uprostřed, takže vybereme dva prostřední a vypočítáme jejich průměr. V našem příkladu je 10 údajů, dva prostřední jsou "57" a "64", takže medián je (57+64)/2 = 60,5. Jiný příklad, podobně jako příklad s příjmy uvedený pro průměr, uvažujme místnost s 10 lidmi, kteří mají příjmy 10, 20, 20, 40, 50, 60, 90, 90, 100 a 1 000 000 dolarů, medián je 55 dolarů, protože 55 dolarů je průměr dvou prostředních čísel, 50 a 60 dolarů. Pokud zanedbáme extrémní hodnotu 1 000 000 USD, je průměr 53 USD. V tomto případě se medián blíží hodnotě získané po vyřazení extrémní hodnoty. Medián řeší problém extrémních hodnot, jak je popsán v definici průměru výše.
Režim
Režim je nejčastějším údajem. Například nejčastějším písmenem v angličtině je písmeno "e". Řekli bychom, že "e" je modus rozložení písmen.
Například pokud je v místnosti 10 lidí s příjmy 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 a 1 000 000 dolarů, je modus 90 dolarů, protože 90 dolarů se vyskytuje třikrát a všechny ostatní hodnoty se vyskytují méně než třikrát.
Může existovat více než jeden režim. Například pokud je v místnosti 10 lidí s příjmy 10, 20, 20, 20, 50, 60, 90, 90, 90, 100 a 1 000 000 dolarů, režimy jsou 20 a 90 dolarů. Jedná se o bi-modalitu neboli o dva režimy. Bi-modalita je velmi častá a často naznačuje, že data jsou kombinací dvou různých skupin. Například průměrná výška všech dospělých v USA má biomodální rozdělení. Je to proto, že muži a ženy mají odděleně průměrnou výšku 1,763 m (5 stop 9 + 1⁄2 palce) u mužů a 1,622 m (5 stop 4 palce) u žen. Tyto vrcholy jsou patrné, když se obě skupiny spojí.
Modus je jedinou formou průměru, kterou lze použít pro data, která nelze seřadit.
Zjištění rozptylu dat
Další věcí, kterou můžeme o souboru dat říci, je jeho rozložení. Běžným způsobem, jak popsat rozptyl souboru dat, je směrodatná odchylka. Pokud je směrodatná odchylka souboru dat malá, pak je většina dat velmi blízko průměru. Pokud je však směrodatná odchylka velká, pak se velká část dat od průměru velmi liší.
Pokud se data řídí běžným vzorcem, který se nazývá normální rozdělení, je velmi užitečné znát směrodatnou odchylku. Pokud se data řídí tímto vzorcem (řekli bychom, že data jsou normálně rozdělena), přibližně 68 z každých 100 dat se bude od průměru lišit o méně než směrodatnou odchylku. Nejen to, ale přibližně 95 z každých 100 měření se bude od průměru lišit o méně než dvojnásobek směrodatné odchylky a přibližně 997 z 1000 měření se bude průměru blížit více než o tři směrodatné odchylky.
Další popisné statistiky
Pomocí statistiky můžeme také zjistit, že určité procento, percentil, počet nebo zlomek lidí nebo věcí ve skupině něco dělá nebo spadá do určité kategorie.
Sociologové například pomocí statistik zjistili, že 49 % lidí na světě jsou muži.
Související software
Na podporu statistiků bylo vyvinuto mnoho statistického softwaru:
- SAS Institute
- SPSS (vyrobený společností IBM)
Otázky a odpovědi
Otázka: Co je to statistika?
Odpověď: Statistika je obor aplikované matematiky, který se zabývá shromažďováním, uspořádáváním, analýzou, čtením a prezentací dat.
Otázka: Jaké jsou dva typy statistiky?
Odpověď: Dva typy statistiky jsou deskriptivní a inferenční. Deskriptivní statistika provádí shrnutí dat, zatímco inferenční statistika provádí předpovědi.
Otázka: Jak pomáhá statistika v jiných oborech?
Odpověď: Statistika pomáhá při studiu mnoha dalších oborů, například vědy, medicíny, ekonomie, psychologie, politiky a marketingu.
Otázka: Kdo pracuje v oboru statistiky?
Odpověď: Ten, kdo pracuje v oblasti statistiky, se nazývá statistik.
Otázka: Co znamená slovo "statistika"?
Odpověď: Kromě toho, že je to název oboru, může slovo "statistika" znamenat také čísla, která se používají k popisu dat nebo vztahů.
Otázka: Jakým činnostem se statistici věnují?
Odpověď: Statistici se zabývají činnostmi, jako je shromažďování, organizování, analýza, čtení a prezentace dat.