Ve statistice je vzorek součástí populace. Vzorek je pečlivě vybrán. Měl by spravedlivě reprezentovat celou populaci bez zkreslení. Vzorky jsou potřebné proto, že populace mohou být tak velké, že spočítání všech jedinců nemusí být možné nebo praktické.
Řešení problému ve statistice proto obvykle začíná výběrem vzorku. Výběr vzorků spočívá ve výběru dat, která budou později analyzována. Jako příklad uveďme, že pro účely studie je třeba analyzovat znečištění jezera. V závislosti na tom, kde byly vzorky vody odebrány, může mít studie různé výsledky. Obecně platí, že vzorky musí být náhodné. To znamená, že šance nebo pravděpodobnost výběru jednoho jedince je stejná jako šance výběru jakéhokoli jiného jedince.
V praxi se náhodné vzorky vždy odebírají přesně definovaným postupem. Postup je soubor pravidel, posloupnost kroků zapsaných na papíře a přesně dodržovaných. I tak může ve vzorku zůstat určitá odchylka. Vezměme si problém sestavení vzorku pro předpověď výsledku volebního průzkumu. Všechny známé metody mají své problémy a výsledky voleb se často liší od předpovědí založených na vzorku. Pokud zjišťujete názory pomocí telefonů nebo setkáváním s lidmi na ulici, vzorek vždy obsahuje zkreslení. Proto v případech, jako je tento, není nikdy možné získat zcela neutrální vzorek. V takových případech se statistik zamyslí nad tím, jak změřit míru zkreslení, a existují způsoby, jak ji odhadnout.
Podobná situace nastává, když vědci měří fyzikální vlastnosti, například hmotnost kusu kovu nebo rychlost světla. Pokud předmět zvážíme citlivým zařízením, dostaneme nepatrně odlišné výsledky. Žádný systém měření není nikdy dokonalý. Získáme řadu odhadů, přičemž každý z nich je měřením. Jedná se o vzorky s určitou mírou chyby. Statistika je určena k popisu chyb a k provádění analýzy tohoto druhu dat.
Existují různé druhy vzorků:
Hlavní druhy vzorkování
- Náhodné (probability) vzorkování – každý prvek cílové populace má známou (a obvykle stejnou) pravděpodobnost, že bude vybrán. Patří sem:
- Jednoduché náhodné vzorkování – náhodný výběr jednotlivců z kompletního seznamu (rámce populace).
- Stratifikované vzorkování – populace je rozdělena do strat (skupin) podle důležitého znaku (např. věk, region) a z každé straty se vybere náhodný podvzorek. Pomáhá zvýšit přesnost při heterogenních populacích.
- Systematické vzorkování – vybírá se každý k-tý prvek z seřazeného rámce (např. každý 10. zákazník). Jednoduché na provedení, ale může zavádět chybu, pokud rámec obsahuje periodické vzory.
- Skupinové (cluster) vzorkování – místo jednotlivců se náhodně vybírají celé skupiny (klastry), např. třídy, obce. Úsporné pro terénní šetření, ale obvykle zvyšuje rozptyl výsledků.
- Víceetapové (multistage) vzorkování – kombinuje výše uvedené techniky v několika etapách (např. náhodný výběr regionů, poté škol v regionech, pak žáků v jednotlivých školách).
- Pravděpodobnostní vzorkování s pravděpodobností úměrnou velikosti (PPS) – větší jednotky mají vyšší šanci být vybrány; používané tam, kde jednotky mají velmi nerovnoměrné velikosti.
- Nep-ravděpodobnostní (non-probability) vzorkování – pravděpodobnosti výběru nejsou známy. Vhodné pro průzkumy tam, kde rychlost nebo náklady převažují nad reprezentativností.
- Úmyslný (judgmental) výběr – výběr podle odborného úsudku.
- Kvótní vzorkování – výzkumník nastaví kvóty (např. 50 % žen) a hledá respondenty, kteří kvóty zaplní.
- Výběr z pohodlí (convenience) – vybírá se to, co je snadno dostupné (např. respondenti u nákupního centra).
- Sněhová koule (snowball) – vhodné pro těžko dosažitelné skupiny; respondenti doporučí další účastníky.
- Dobrovolné odpovědi – respondenti se přihlásí sami (často velmi zkreslené).
Hlavní zdroje zkreslení a chyb ve výběru vzorku
- Vzorkovací chyba (sampling error) – odchylka mezi odhadem ze vzorku a skutečnou hodnotou v populaci způsobená náhodnou variabilitou vzorku. Snižuje se zvětšením velikosti vzorku.
- Výběrové (selection) zkreslení – nastává, pokud některé části populace mají menší nebo žádnou šanci být vybrány (např. pouze uživatelé internetu v online průzkumu).
- Neodpověď (nonresponse) a její zkreslení – pokud lidé neodpovídají náhodně a neodpovědi souvisejí s měřenou veličinou, může to vést k systematickému zkreslení.
- Pokrytí (coverage) bias – rozdíl mezi cílovou populací a dostupným rámcem (např. seznam telefonních čísel nezahrnuje všechny obyvatelé).
- Chyby měření (measurement error) – nepřesnosti při získávání dat (špatně formulované otázky, nepřesné přístroje), které nejsou důsledkem samotného výběru.
- Chyba zaokrouhlení nebo zpracování – chyby v zadávání dat, kódování nebo při analýze.
Jak měřit a korigovat zkreslení
- Váhování (weighting) – úprava dat pomocí vah tak, aby vzorek lépe odpovídal známe struktuře populace (např. pohlaví, věk, region). Pomáhá korigovat nerovnováhu způsobenou neodpověďmi nebo pokrytím.
- Poststratifikace a kalibrace – přizpůsobení vzorku podle známých populačních distribucí (např. podle sčítání lidu).
- Opakované pokusy a follow-up – snaha kontaktovat neodpovídající skupiny (např. vícenásobná výzva, jiné komunikační kanály).
- Pilotní studie – předběžné testování postupu výběru a dotazníků pro odhalení problémů před hlavním sběrem dat.
- Smíšené režimy sběru (mixed-mode) – kombinace telefonického, online a osobního sběru, aby se snížilo pokrytí a neodpovědní zkreslení.
- Modelování nonresponse – statistické modely, které odhadují vztah mezi neodpovědí a odpověďmi a umožňují korekci.
Plánování velikosti vzorku a přesnost
Pro určení potřebné velikosti vzorku se obvykle používá kombinace požadované přesnosti (např. margin of error), předpokládané variability měřené veličiny a důvěryhodnostního intervalu (např. 95 %). Některé zásady:
- Čím větší vzorek, tím menší vzorkovací chyba a užší interval spolehlivosti.
- Pro odhady podílu v populaci (při neznámé variabilitě) se často používá konzervativní odhad variability p = 0,5, který maximalizuje potřebu velikosti vzorku.
- Při stratifikovaném nebo shlukovém vzorkování se počítá s tzv. design effect (efekt návrhu), který upravuje efektivní velikost vzorku v důsledku korelací v datech.
Praktický postup při sestavování vzorku (checklist)
- Definujte cílovou populaci přesně (kdo je zahrnut, kdo ne).
- Zajistěte kvalitní rámec populace (seznamy, registry, mapy apod.).
- Zvolte vhodnou metodu vzorkování (náhodná vs. nenáhodná) podle účelu a zdrojů.
- Rozhodněte o velikosti vzorku s ohledem na požadovanou přesnost a rozpočet.
- Připravte plán pro sběr dat (nástroje, školení tazatelů, pilotní test).
- Monitorujte kumulativní odpovědi a provádějte korekce (váhy, follow-up) podle potřeby.
- Po sběru dat analyzujte rizika zkreslení a uveďte je při interpretaci výsledků.
Příklady aplikací
- U jezera s měřením znečištění: vhodné je stratifikovat podle hloubky, vzdálenosti od zdrojů znečištění a vybírat náhodné transekty nebo body, aby vzorek pokrýval různorodost jezera.
- V volebních průzkumech: kombinace náhodného výběru, váhování podle demografických charakteristik a opakovaných vylepšení vzorku pomáhá snížit chybu, i když úplné odstranění zkreslení je často nemožné.
- Při měření fyzikálních veličin (např. rychlosti světla): více opakovaných měření a pečlivá kalibrace přístrojů snižují chyby měření.
Závěrem
Výběr vzorku je kritickou fází každé statistické studie. Pečlivý návrh vzorku, znalost možných zdrojů zkreslení a aktivní kroky ke korekci (váhování, pilotáž, smíšené metody sběru) jsou nezbytné pro získání věrohodných odhadů. I přesto je důležité otevřeně komunikovat omezení výsledků a míru nejistoty, například pomocí intervalů spolehlivosti a popisu potenciálních zdrojů zkreslení.

