Frekvenční rozdělení ve statistice: definice, příklady a použití

Frekvenční rozdělení ve statistice: jasná definice, praktické příklady a návody na tvorbu tabulek a intervalů pro správnou vizualizaci, analýzu a interpretaci dat.

Autor: Leandro Alegsa

Rozdělení četností je ve statistice seznam hodnot, které proměnná nabývá ve vzorku. Obvykle se jedná o seznam uspořádaný podle množství. Ukáže, kolikrát se každá hodnota vyskytuje. Pokud například 100 lidí hodnotí na pětibodové Likertově škále svůj souhlas s výrokem na stupnici, na níž 1 znamená silný souhlas a 5 silný nesouhlas, může rozdělení četností jejich odpovědí vypadat takto:

Tato jednoduchá tabulka má dvě nevýhody. Pokud proměnná může nabývat spojitých hodnot místo diskrétních nebo pokud je počet možných hodnot příliš velký, je konstrukce tabulky obtížná, ne-li nemožná. V takových případech se používá poněkud jiné schéma založené na rozsahu hodnot. Uvažujeme-li například výšku studentů ve třídě, může tabulka četností vypadat následovně.

Co rozdělení četností obsahuje

  • Absolutní četnost (ni) – počet pozorování pro danou hodnotu nebo interval.
  • Relativní četnost (fi) – absolutní četnost dělená celkovým počtem pozorování: fi = ni / n. Vyjadřuje podíl celé skupiny.
  • Procentuální četnost – relativní četnost v procentech: pi = 100 · fi.
  • Kumulativní četnost (Fi) – součet absolutních četností až do dané hodnoty nebo intervalu; užitečná pro určení kvantilů.
  • Hustota četnosti – u skupinovaných dat se používá ni / šířka intervalu (důležité, když intervaly mají různé šířky).

Příklad

Pro ilustraci diskrétního rozdělení četností (Likertova škála, n = 100):

  • 1 (silný souhlas): 10
  • 2: 20
  • 3: 30
  • 4: 25
  • 5 (silný nesouhlas): 15

Z toho relativní četnosti jsou 0,10; 0,20; 0,30; 0,25; 0,15 a kumulativní četnosti 10; 30; 60; 85; 100.

Skupinování spojitých dat (třídění do intervalů)

U spojitých proměnných (např. výška, hmotnost, čas) nebo u velkého počtu různých hodnot se data rozdělí do tříd (intervalů). Základní kroky:

  • Rozhodnout počet tříd (k). Obecná doporučení: Sturgesovo pravidlo k ≈ 1 + log2 n nebo prakticky 5–20 tříd v závislosti na n a rozptylu.
  • Zjistit rozsah dat (max − min) a určit šířku třídy: šířka ≈ rozsah / k.
  • Určit hraniční body tříd (dávat pozor na zaokrouhlování a na inkluze hranic: např. [150, 159.9], [160, 169.9] nebo 150–159, 160–169 apod.).
  • Spočítat absolutní a relativní četnosti v každé třídě a případně hustotu četnosti (pro nerovnoměrné šířky tříd).

Grafické znázornění

  • Histogram – pro spojitá nebo seskupená data; sousední sloupce se dotýkají; výška sloupce odpovídá hustotě nebo absolutní četnosti.
  • Sloupcový graf (bar chart) – pro diskrétní nebo kategoriální data; sloupce jsou oddělené.
  • Ogiva – křivka kumulativních četností, užitečná pro odhad kvantilů (medián, kvartily).
  • Frekvenční polygon – lomená čára spojující střední body sloupců histogramu; vhodné pro porovnání rozdělení.

Význam a použití

Rozdělení četností je základní popisnou informací o datech a slouží k:

  • rychlé orientaci v tvaru dat (symetrie, šikmost, vícečetnost režimů),
  • identifikaci odlehlých hodnot a chyb v datech,
  • výpočtu dalších statistických charakteristik (průměr, medián, rozptyl, kvartily),
  • vizualizaci a prezentaci výsledků (ve vědeckých zprávách, prezentacích, při rozhodování),
  • další analýze, např. odhadu hustoty rozdělení nebo testování normality.

Praktické tipy a úskalí

  • Při volbě počtu tříd se vyhněte příliš mnoha (dat bude málo v každé třídě) i příliš málo třídám (ztratí se informace).
  • U nerovnoměrných intervalů používejte místo absolutní četnosti hustotu (četnost/šířka), aby histogram správně odrážel rozložení.
  • Jasně specifikujte, které hraniční hodnoty jsou zahrnuty (např. levostranně nebo pravostranně uzavřené intervaly), aby nedocházelo k dvojnásobnému započítání nebo opomenutí.
  • Pro malé vzorky jsou výpočty relativních četností citlivé na jednotlivé pozorování; v interpretaci buďte opatrní.
  • Pro automatizované výpočty a grafy lze použít nástroje jako Excel, R (funkce hist(), table(), cut()), Python (pandas, matplotlib, seaborn) apod.

Krátké shrnutí

Rozdělení četností shrnuje, jak jsou hodnoty proměnné rozloženy v datech. Může být diskrétní (jednotlivé hodnoty) nebo skupinové (intervaly). Zahrnuje absolutní, relativní a kumulativní četnosti a slouží k vizuálnímu i numerickému zhodnocení dat před další analýzou.

Příklad (absolutního) rozdělení četností. Toto je populační pyramida Angoly pro rok 2005.Zoom
Příklad (absolutního) rozdělení četností. Toto je populační pyramida Angoly pro rok 2005.

Toto je populační pyramida Číny pro rok 2005.Zoom
Toto je populační pyramida Číny pro rok 2005.

Aplikace

Správa a práce s tabulkovými daty je mnohem jednodušší než práce s nezpracovanými daty. Existují jednoduché algoritmy pro výpočet mediánu, průměru (statistiky), směrodatné odchylky atd. z těchto tabulek.

Testování statistických hypotéz je založeno na posuzování rozdílů a podobností mezi rozděleními četností. Toto hodnocení zahrnuje míry centrální tendence neboli průměry, jako je průměr a medián, a míry variability neboli statistického rozptylu, jako je směrodatná odchylka nebo rozptyl.

O rozdělení četností se říká, že je zkreslené, pokud se jeho střední hodnota a medián liší. Kurtóza rozdělení četností je koncentrace skóre u středu, neboli to, jak se rozdělení jeví jako špičaté, pokud je zobrazeno graficky - například v histogramu. Pokud je rozdělení více špičaté než normální rozdělení, říká se, že je leptokurtické; pokud je méně špičaté, říká se, že je platikurtické.

Frekvenční rozdělení se používají také ve frekvenční analýze k luštění kódů a týkají se relativní četnosti písmen v různých jazycích.

Otázky a odpovědi

Otázka: Co je to rozdělení četností?


Odpověď: Rozdělení četností je seznam hodnot, které nabývá proměnná ve vzorku, seřazený podle množství. Ukazuje, kolikrát se která hodnota objeví.

Otázka: Jak může vypadat rozdělení četností odpovědí na pětibodové Likertově stupnici?


Odpověď: Rozdělení četností odpovědí na pětibodové Likertově stupnici může vypadat jako jednoduchá tabulka, která ukazuje počet lidí, kteří ohodnotili každý bod na stupnici.

Otázka: Jaké jsou dvě nevýhody použití tohoto typu tabulky?


Odpověď: Dvě nevýhody použití tohoto typu tabulky spočívají v tom, že může být obtížné nebo dokonce nemožné, pokud se jedná o spojité hodnoty nebo pokud existuje příliš mnoho možných hodnot.

Otázka: V čem se toto schéma liší, pokud se zabýváme spojitými hodnotami nebo velkým počtem možných hodnot?


Odpověď: Při práci se spojitými hodnotami nebo s velkým počtem možných hodnot lze místo toho použít trochu jiné schéma založené na rozsahu hodnot.

Otázka: Jak by mohla vypadat tabulka četností pro výšku žáků?


Odpověď: Tabulka četností pro výšku studentů by mohla zobrazovat rozsahy a kolik studentů spadá do každého rozsahu.


Otázka: Jaké informace poskytuje rozdělení četností?


Odpověď: Rozdělení četností poskytuje informace o tom, jak často se určité proměnné vyskytují ve vzorcích a jak jsou v těchto vzorcích rozloženy.


Vyhledávání
AlegsaOnline.com - 2020 / 2025 - License CC3