Simpsonův paradox: jak slučování skupin mění statistické závěry
Simpsonův paradox: jak slučování skupin může obrátit statistické závěry — pochopte příčiny, příklady a jak se vyhnout závěrům chybným z dat.
Simpsonův paradox je paradox ze statistiky. Je pojmenován po Edwardu H. Simpsonovi, britském statistikovi, který jej poprvé popsal v roce 1951. Statistik Karl Pearson popsal velmi podobný efekt v roce 1899.- Popis Udnyho Yuleho pochází z roku 1903. Někdy se nazývá Yule-Simpsonův efekt. Při pohledu na statistické výsledky skupin se tyto výsledky mohou měnit v závislosti na tom, zda se na skupiny pohlíží po jedné, nebo zda se spojí do větší skupiny. Tento případ se často vyskytuje ve společenských vědách a lékařské statistice. Může lidi zmást, pokud se k vysvětlení příčinného vztahu používají údaje o četnostech. Mezi další názvy tohoto paradoxu patří paradox zvratu a paradox slučování.
Co paradox znamená v praxi
V jádru jde o to, že pořadí poměrů (např. úspěšnost léčby, míra přijetí na fakultu apod.) může být opačné, když se porovnávají výsledky v jednotlivých podskupinách a když se tyto podskupiny sloučí do jedné velké skupiny. Jinými slovy: A může být lepší než B v každé menší skupině zvlášť, ale po sloučení dat může vyjít, že B je celkově lepší.
Příklad (ilustrativní)
Následující zjednodušený příklad ukazuje princip (číselné hodnoty jsou smyšlené, aby ilustrovaly myšlenku):
- Skupina 1: Léčba A má 90 úspěchů z 100 pokusů (90 %), léčba B má 80 z 100 (80 %) — A je lepší.
- Skupina 2: Léčba A má 1 úspěch z 10 pokusů (10 %), léčba B má 9 z 10 (90 %) — B je lepší.
- Pokud má do Skupiny 1 většinu pacientů užívajících A a do Skupiny 2 většinu pacientů užívajících B, může se stát, že celkově (po sloučení obou skupin) bude mít B vyšší celkovou úspěšnost — i když v obou homogenních skupinách byl A lepší (nebo naopak). Situace závisí na relativních velikostech skupin a na tom, jak jsou pacienti rozloženi mezi skupinami a léčbami.
Proč k paradoxu dochází
- Vážený průměr: Celková míra je vážený průměr mír v jednotlivých podskupinách. Pokud váhy (počty případů v podskupinách) nejsou stejné pro porovnávané skupiny, mohou váhy „převážit“ menší či větší úspěšnosti v jednotlivých skupinách a změnit celkové pořadí.
- Skryté (lze nazvat i „lurking“) proměnné: Paradox je obvykle důsledkem jiné proměnné (konfounderu), která ovlivňuje jak rozložení případů mezi skupiny, tak i výsledek. Například pohlaví, věk, závažnost onemocnění nebo volba oddělení na univerzitě mohou být takové konfoundery.
- Observační data vs. kauzalita: Simpsonův paradox je varováním, že prosté porovnávání frekvencí nebo mír z pozorovacích dat může vést k chybným závěrům o příčinných vztazích.
Jak paradox odhalit a jak se mu vyhnout
- Stratifikovat data: Podívat se na výsledky v homogenních podskupinách (např. podle věku, pohlaví, závažnosti onemocnění) namísto vycházení pouze z celkových součtů.
- Kontrolovat konfoundery: Použít regresní modely (např. logistickou regresi), víceproměnné analýzy nebo metody párování (matching), které berou v úvahu potenciální rušivé proměnné.
- Kauzální rámce: Použít nástroje kauzální inference, např. kauzální grafy (DAG), a zvažovat, které proměnné je třeba kontrolovat, aby se odhalil skutečný příčinný efekt.
- Náhodné přiřazení: Pokud je to možné, preferovat randomizované experimenty, které eliminují mnoho typů konfoundingu.
- Citlivostní analýza: Zkoumat, jak by se výsledky změnily při různém zařazení nebo kontrole podskupin a hledat stabilitu závěrů.
Důsledky a upozornění
Simpsonův paradox nevypovídá sám o sobě o „chybě“ ve sběru dat — jde o logický důsledek agregace. Je ale důležité si uvědomit, že:
- Analýza pouze agregovaných dat může vést k zavádějícím závěrům.
- Rozhodnutí založená na nesprávně interpretovaných frekvencích mohou mít reálné škodlivé dopady (např. špatná volba léčby, nespravedlivé rozhodování při přijímacím řízení apod.).
- Vždy je třeba uvažovat o možné existenci skrytých proměnných a o vhodnosti sloučení skupin.
Krátká historická poznámka
Jak už bylo zmíněno, efekt je pojmenován podle Edwarda H. Simpsona (1951), avšak podobné jevy popisovali dřívější statistici jako Karl Pearson (1899) nebo Udny Yule (1903). Z toho důvodu se někdy setkáme i s názvem Yule–Simpsonův efekt.
Závěr: Simpsonův paradox je praktické varování pro každého, kdo interpretuje statistická data: před vyvozením závěrů je třeba podívat se na strukturu dat, zvážit možné konfoundery a pokud možno použít metody, které zohledňují rozdělení případů mezi podskupiny.
Příklad: Léčba ledvinových kamenů
Toto je skutečný příklad z lékařské studie, která srovnávala úspěšnost dvou způsobů léčby ledvinových kamenů.
V tabulce jsou uvedeny míry úspěšnosti a počty zákroků pro léčbu malých i velkých ledvinových kamenů, přičemž léčba A zahrnuje všechny otevřené zákroky a léčba B perkutánní nefrolitotomii:
| Ošetření A | Ošetření B | |||
| úspěch | selhání | úspěch | selhání | |
| Malé kameny | Skupina 1 | Skupina 2 | ||
| počet pacientů | 81 | 6 | 234 | 36 |
| 93% | 7% | 87% | 13% | |
| Velké kameny | Skupina 3 | Skupina 4 | ||
| počet pacientů | 192 | 71 | 55 | 25 |
| 73% | 27% | 69% | 31% | |
| Obě stránky | Skupina 1+3 | Skupina 2+4 | ||
| počet pacientů | 273 | 77 | 289 | 61 |
| 78% | 22% | 83% | 17% | |
Paradoxním závěrem je, že léčba A je účinnější při použití na malé kameny a také při použití na velké kameny, avšak léčba B je účinnější při zohlednění obou velikostí současně. V tomto příkladu nebylo známo, že by velikost ledvinového kamene ovlivňovala výsledek. Tomu se ve statistice říká skrytá proměnná (nebo číhající proměnná).
O tom, která léčba je považována za lepší, rozhoduje nerovnost mezi dvěma poměry (úspěchy/celkem). K obrácení nerovnosti mezi poměry, které vytváří Simpsonův paradox, dochází proto, že se dva efekty vyskytují společně:
- Velikosti skupin, které se spojí, když se ignoruje číhající proměnná, jsou velmi rozdílné. Lékaři mají tendenci poskytovat těžkým případům (velké kameny) lepší léčbu (A) a mírnějším případům (malé kameny) horší léčbu (B). Proto v součtech dominují skupiny tři a dva, a nikoliv dvě mnohem menší skupiny jedna a čtyři.
- Velký vliv na poměry má číhající proměnná, tj. úspěšnost je silněji ovlivněna závažností případu než volbou léčby. Proto si skupina pacientů s velkými kameny používající léčbu A (skupina tři) vede hůře než skupina s malými kameny, i když ta použila horší léčbu B (skupina dva).
Vyhledávání