Interval spolehlivosti
Interval spolehlivosti je ve statistice zvláštní forma odhadu určitého parametru. Při této metodě se místo jedné hodnoty udává celý interval přípustných hodnot parametru a pravděpodobnost, že skutečná (neznámá) hodnota parametru bude v tomto intervalu. Interval spolehlivosti je založen na pozorování ze vzorku, a proto se liší vzorek od vzorku. Pravděpodobnost, že parametr bude v intervalu, se nazývá hladina spolehlivosti. Velmi často se udává v procentech. Interval spolehlivosti se vždy uvádí společně s úrovní spolehlivosti. Lidé mohou hovořit o "95% intervalu spolehlivosti". Koncové body intervalu spolehlivosti se označují jako meze spolehlivosti. Pro daný postup odhadu v dané situaci platí, že čím vyšší je hladina spolehlivosti, tím širší je interval spolehlivosti.
Výpočet intervalu spolehlivosti obecně vyžaduje předpoklady o povaze procesu odhadu - jedná se především o parametrickou metodu. Jedním z běžných předpokladů je, že rozdělení populace, z níž vzorek pochází, je normální. Intervaly spolehlivosti jako takové, jak je uvedeno níže, nejsou robustní statistikou, i když lze provést změny, které robustnost přidají.
Význam pojmu "confidence"
Termín důvěra má ve statistice podobný význam jako v běžném použití. V běžném použití se tvrzení o 95% spolehlivosti něčeho obvykle považuje za označení praktické jistoty. Ve statistice tvrzení o 95% spolehlivosti jednoduše znamená, že výzkumník viděl jeden možný interval z velkého počtu možných, z nichž devatenáct z dvaceti intervalů obsahuje skutečnou hodnotu parametru.
Praktický příklad
Stroj plní kelímky margarínem. Pro tento příklad je stroj nastaven tak, aby obsah kelímků byl 250 g margarínu. Protože stroj nemůže naplnit každý kelímek přesně 250 g, obsah přidaný do jednotlivých kelímků vykazuje určitou variabilitu a je považován za náhodnou veličinu X. Předpokládá se, že tato variabilita je normálně rozdělena kolem požadovaného průměru 250 g se směrodatnou odchylkou 2,5 g. Aby se zjistilo, zda je stroj dostatečně kalibrován, vybere se náhodně vzorek n = 25 kelímků margarínu a kelímky se zváží. Hmotnosti margarínu jsou X1, ..., X25, náhodný vzorek z X.
Abychom si udělali představu o očekávané hodnotě μ, stačí uvést její odhad. Vhodným odhadem je výběrový průměr:
μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. }
Ve vzorku jsou uvedeny skutečné váhy x1, ...,x25 s průměrem:
x¯ = 1 25 ∑ i = 1 25 x i = 250,2 gramů . {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250,2\,{\text{gramů}}. }
Pokud bychom vzali další vzorek 25 šálků, mohli bychom snadno očekávat hodnoty jako 250,4 nebo 251,1 gramů. Průměrná hodnota vzorku 280 gramů by však byla velmi vzácná, pokud by se průměrný obsah šálků skutečně blížil 250 g. Kolem pozorované hodnoty 250,2 výběrového průměru existuje celý interval, v němž, pokud by celopopulační průměr skutečně nabýval hodnoty v tomto rozmezí, by pozorované údaje nebyly považovány za nijak zvlášť neobvyklé. Takový interval se nazývá interval spolehlivosti pro parametr μ. Jak takový interval vypočítáme? Koncové body intervalu je třeba vypočítat ze vzorku, takže se jedná o statistiky, funkce vzorku X1, ..., X25, a tedy o náhodné veličiny samotné.
V našem případě můžeme koncové body určit tak, že uvažujeme, že výběrový průměr X z normálně rozděleného vzorku je také normálně rozdělený, se stejným očekáváním μ, ale se standardní chybou σ/√n = 0,5 (gramů). Standardizací získáme náhodnou veličinu
Z = X¯ - μ σ / n = X¯ - μ 0,5 {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0,5}}})
závislé na odhadovaném parametru μ, ale se standardním normálním rozdělením nezávislým na parametru μ. Lze tedy nalézt čísla -z a z, nezávislá na μ, kde Z leží mezi nimi s pravděpodobností 1 - α, což je míra toho, jak jistí chceme být. Vezmeme 1 - α = 0,95. Máme tedy:
P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alfa =0,95.\,}
Číslo z vyplývá z kumulativní distribuční funkce:
Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0,975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0,975)=1,96,\end{aligned}}}}.
a dostaneme:
0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X¯ - μ σ / n ≤ 1,96 ) = P ( X¯ - 1,96 σ n ≤ μ ≤ X¯ + 1.96 σ n ) = P ( X¯ - 1,96 × 0,5 ≤ μ ≤ X¯ + 1,96 × 0,5 ) = P ( X¯ - 0,98 ≤ μ ≤ X¯ + 0,98 ) . {\displaystyle {\begin{aligned}0,95&=1-\alfa =P(-z\leq Z\leq z)=P\left(-1,96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}pravá)\\[6pt]&=P\levá({\bar {X}}-1,96\krát 0,5\leq \mu \leq {\bar {X}}+1.96\krát 0,5\vpravo)\\[6pt]&=P\left({\bar {X}}-0,98\leq \mu \leq {\bar {X}}+0,98\vpravo).\end{aligned}}}
To lze interpretovat takto: s pravděpodobností 0,95 nalezneme interval spolehlivosti, ve kterém se setkáme s parametrem μ mezi stochastickými koncovými body.
X - 0 . 98 {\displaystyle {\bar {X}}-0{.}98\,}
a
X ¯ + 0.98. {\displaystyle {\bar {X}}+0.98.\,}
To neznamená, že ve vypočteném intervalu je pravděpodobnost splnění parametru μ 0,95. Při každém opakování měření bude zjištěna jiná hodnota střední hodnoty X vzorku. V 95 % případů bude μ mezi koncovými body vypočtenými z tohoto průměru, ale v 5 % případů tomu tak nebude. Skutečný interval spolehlivosti se vypočítá dosazením naměřených vah do vzorce. Náš interval spolehlivosti 0,95 má tvar:
( x - 0,98 ; x - + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}
Protože požadovaná hodnota 250 μ je uvnitř výsledného intervalu spolehlivosti, není důvod se domnívat, že stroj je špatně kalibrován.
Vypočtený interval má pevné koncové body, přičemž μ může být mezi nimi (nebo také ne). Tato událost má tedy pravděpodobnost buď 0, nebo 1. Nemůžeme říci: "s pravděpodobností (1 - α) leží parametr μ v intervalu spolehlivosti". Víme pouze, že opakováním ve 100(1 - α) % případů bude μ ležet ve vypočteném intervalu. Ve 100α % případů však nikoliv. A bohužel nevíme, ve kterých z případů se tak stane. Proto říkáme: "při hladině spolehlivosti 100(1 - α) % leží μ v intervalu spolehlivosti. "
Obrázek vpravo ukazuje 50 realizací intervalu spolehlivosti pro daný populační průměr μ. Pokud náhodně vybereme jednu realizaci, je pravděpodobnost 95 %, že jsme nakonec vybrali interval, který obsahuje parametr; můžeme však mít smůlu a vybrat špatný interval. To se nikdy nedozvíme; zůstáváme u našeho intervalu.
Svislé úsečky představují 50 realizací intervalu spolehlivosti pro μ.
Otázky a odpovědi
Otázka: Co je to interval spolehlivosti ve statistice?
A: Interval spolehlivosti je speciální interval používaný k odhadu parametru, například populačního průměru, který udává rozsah přijatelných hodnot parametru namísto jedné hodnoty.
Otázka: Proč se používá interval spolehlivosti místo jedné hodnoty?
Odpověď: Interval spolehlivosti se používá místo jediné hodnoty, aby se zohlednila nejistota odhadu parametru na základě vzorku a aby se určila pravděpodobnost, že skutečná hodnota parametru je uvnitř intervalu.
Otázka: Co je to hladina spolehlivosti?
Odpověď: Úroveň spolehlivosti je pravděpodobnost, že odhadovaný parametr je uvnitř intervalu spolehlivosti, a často se udává v procentech (např. 95% interval spolehlivosti).
Otázka: Co jsou meze spolehlivosti?
Odpověď: Hranice spolehlivosti jsou koncové body intervalu spolehlivosti, které vymezují rozsah přijatelných hodnot odhadovaného parametru.
Otázka: Jak ovlivňuje hladina spolehlivosti interval spolehlivosti?
Odpověď: V daném postupu odhadu platí, že čím vyšší je úroveň spolehlivosti, tím širší je interval spolehlivosti.
Otázka: Jaké předpoklady jsou nutné pro výpočet intervalu spolehlivosti?
Odpověď: Výpočet intervalu spolehlivosti obecně vyžaduje předpoklady o povaze procesu odhadu, například předpoklad, že rozdělení populace, z níž vzorek pochází, je normální.
Otázka: Jsou intervaly spolehlivosti robustní statistikou?
Odpověď: Intervaly spolehlivosti, jak je uvedeno níže, nejsou robustní statistikou, i když lze provést úpravy, které robustnost zvýší.