Frekvenční rozdělení ve statistice: definice, příklady a použití
Frekvenční rozdělení ve statistice: jasná definice, praktické příklady a návody na tvorbu tabulek a intervalů pro správnou vizualizaci, analýzu a interpretaci dat.
Rozdělení četností je ve statistice seznam hodnot, které proměnná nabývá ve vzorku. Obvykle se jedná o seznam uspořádaný podle množství. Ukáže, kolikrát se každá hodnota vyskytuje. Pokud například 100 lidí hodnotí na pětibodové Likertově škále svůj souhlas s výrokem na stupnici, na níž 1 znamená silný souhlas a 5 silný nesouhlas, může rozdělení četností jejich odpovědí vypadat takto:
Tato jednoduchá tabulka má dvě nevýhody. Pokud proměnná může nabývat spojitých hodnot místo diskrétních nebo pokud je počet možných hodnot příliš velký, je konstrukce tabulky obtížná, ne-li nemožná. V takových případech se používá poněkud jiné schéma založené na rozsahu hodnot. Uvažujeme-li například výšku studentů ve třídě, může tabulka četností vypadat následovně.
Co rozdělení četností obsahuje
- Absolutní četnost (ni) – počet pozorování pro danou hodnotu nebo interval.
- Relativní četnost (fi) – absolutní četnost dělená celkovým počtem pozorování: fi = ni / n. Vyjadřuje podíl celé skupiny.
- Procentuální četnost – relativní četnost v procentech: pi = 100 · fi.
- Kumulativní četnost (Fi) – součet absolutních četností až do dané hodnoty nebo intervalu; užitečná pro určení kvantilů.
- Hustota četnosti – u skupinovaných dat se používá ni / šířka intervalu (důležité, když intervaly mají různé šířky).
Příklad
Pro ilustraci diskrétního rozdělení četností (Likertova škála, n = 100):
- 1 (silný souhlas): 10
- 2: 20
- 3: 30
- 4: 25
- 5 (silný nesouhlas): 15
Z toho relativní četnosti jsou 0,10; 0,20; 0,30; 0,25; 0,15 a kumulativní četnosti 10; 30; 60; 85; 100.
Skupinování spojitých dat (třídění do intervalů)
U spojitých proměnných (např. výška, hmotnost, čas) nebo u velkého počtu různých hodnot se data rozdělí do tříd (intervalů). Základní kroky:
- Rozhodnout počet tříd (k). Obecná doporučení: Sturgesovo pravidlo k ≈ 1 + log2 n nebo prakticky 5–20 tříd v závislosti na n a rozptylu.
- Zjistit rozsah dat (max − min) a určit šířku třídy: šířka ≈ rozsah / k.
- Určit hraniční body tříd (dávat pozor na zaokrouhlování a na inkluze hranic: např. [150, 159.9], [160, 169.9] nebo 150–159, 160–169 apod.).
- Spočítat absolutní a relativní četnosti v každé třídě a případně hustotu četnosti (pro nerovnoměrné šířky tříd).
Grafické znázornění
- Histogram – pro spojitá nebo seskupená data; sousední sloupce se dotýkají; výška sloupce odpovídá hustotě nebo absolutní četnosti.
- Sloupcový graf (bar chart) – pro diskrétní nebo kategoriální data; sloupce jsou oddělené.
- Ogiva – křivka kumulativních četností, užitečná pro odhad kvantilů (medián, kvartily).
- Frekvenční polygon – lomená čára spojující střední body sloupců histogramu; vhodné pro porovnání rozdělení.
Význam a použití
Rozdělení četností je základní popisnou informací o datech a slouží k:
- rychlé orientaci v tvaru dat (symetrie, šikmost, vícečetnost režimů),
- identifikaci odlehlých hodnot a chyb v datech,
- výpočtu dalších statistických charakteristik (průměr, medián, rozptyl, kvartily),
- vizualizaci a prezentaci výsledků (ve vědeckých zprávách, prezentacích, při rozhodování),
- další analýze, např. odhadu hustoty rozdělení nebo testování normality.
Praktické tipy a úskalí
- Při volbě počtu tříd se vyhněte příliš mnoha (dat bude málo v každé třídě) i příliš málo třídám (ztratí se informace).
- U nerovnoměrných intervalů používejte místo absolutní četnosti hustotu (četnost/šířka), aby histogram správně odrážel rozložení.
- Jasně specifikujte, které hraniční hodnoty jsou zahrnuty (např. levostranně nebo pravostranně uzavřené intervaly), aby nedocházelo k dvojnásobnému započítání nebo opomenutí.
- Pro malé vzorky jsou výpočty relativních četností citlivé na jednotlivé pozorování; v interpretaci buďte opatrní.
- Pro automatizované výpočty a grafy lze použít nástroje jako Excel, R (funkce hist(), table(), cut()), Python (pandas, matplotlib, seaborn) apod.
Krátké shrnutí
Rozdělení četností shrnuje, jak jsou hodnoty proměnné rozloženy v datech. Může být diskrétní (jednotlivé hodnoty) nebo skupinové (intervaly). Zahrnuje absolutní, relativní a kumulativní četnosti a slouží k vizuálnímu i numerickému zhodnocení dat před další analýzou.

Příklad (absolutního) rozdělení četností. Toto je populační pyramida Angoly pro rok 2005.

Toto je populační pyramida Číny pro rok 2005.
Aplikace
Správa a práce s tabulkovými daty je mnohem jednodušší než práce s nezpracovanými daty. Existují jednoduché algoritmy pro výpočet mediánu, průměru (statistiky), směrodatné odchylky atd. z těchto tabulek.
Testování statistických hypotéz je založeno na posuzování rozdílů a podobností mezi rozděleními četností. Toto hodnocení zahrnuje míry centrální tendence neboli průměry, jako je průměr a medián, a míry variability neboli statistického rozptylu, jako je směrodatná odchylka nebo rozptyl.
O rozdělení četností se říká, že je zkreslené, pokud se jeho střední hodnota a medián liší. Kurtóza rozdělení četností je koncentrace skóre u středu, neboli to, jak se rozdělení jeví jako špičaté, pokud je zobrazeno graficky - například v histogramu. Pokud je rozdělení více špičaté než normální rozdělení, říká se, že je leptokurtické; pokud je méně špičaté, říká se, že je platikurtické.
Frekvenční rozdělení se používají také ve frekvenční analýze k luštění kódů a týkají se relativní četnosti písmen v různých jazycích.
Otázky a odpovědi
Otázka: Co je to rozdělení četností?
Odpověď: Rozdělení četností je seznam hodnot, které nabývá proměnná ve vzorku, seřazený podle množství. Ukazuje, kolikrát se která hodnota objeví.
Otázka: Jak může vypadat rozdělení četností odpovědí na pětibodové Likertově stupnici?
Odpověď: Rozdělení četností odpovědí na pětibodové Likertově stupnici může vypadat jako jednoduchá tabulka, která ukazuje počet lidí, kteří ohodnotili každý bod na stupnici.
Otázka: Jaké jsou dvě nevýhody použití tohoto typu tabulky?
Odpověď: Dvě nevýhody použití tohoto typu tabulky spočívají v tom, že může být obtížné nebo dokonce nemožné, pokud se jedná o spojité hodnoty nebo pokud existuje příliš mnoho možných hodnot.
Otázka: V čem se toto schéma liší, pokud se zabýváme spojitými hodnotami nebo velkým počtem možných hodnot?
Odpověď: Při práci se spojitými hodnotami nebo s velkým počtem možných hodnot lze místo toho použít trochu jiné schéma založené na rozsahu hodnot.
Otázka: Jak by mohla vypadat tabulka četností pro výšku žáků?
Odpověď: Tabulka četností pro výšku studentů by mohla zobrazovat rozsahy a kolik studentů spadá do každého rozsahu.
Otázka: Jaké informace poskytuje rozdělení četností?
Odpověď: Rozdělení četností poskytuje informace o tom, jak často se určité proměnné vyskytují ve vzorcích a jak jsou v těchto vzorcích rozloženy.
Vyhledávání