Simpsonův paradox je paradox ze statistiky. Je pojmenován po Edwardu H. Simpsonovi, britském statistikovi, který jej poprvé popsal v roce 1951. Statistik Karl Pearson popsal velmi podobný efekt v roce 1899.- Popis Udnyho Yuleho pochází z roku 1903. Někdy se nazývá Yule-Simpsonův efekt. Při pohledu na statistické výsledky skupin se tyto výsledky mohou měnit v závislosti na tom, zda se na skupiny pohlíží po jedné, nebo zda se spojí do větší skupiny. Tento případ se často vyskytuje ve společenských vědách a lékařské statistice. Může lidi zmást, pokud se k vysvětlení příčinného vztahu používají údaje o četnostech. Mezi další názvy tohoto paradoxu patří paradox zvratu a paradox slučování.

Co paradox znamená v praxi

V jádru jde o to, že pořadí poměrů (např. úspěšnost léčby, míra přijetí na fakultu apod.) může být opačné, když se porovnávají výsledky v jednotlivých podskupinách a když se tyto podskupiny sloučí do jedné velké skupiny. Jinými slovy: A může být lepší než B v každé menší skupině zvlášť, ale po sloučení dat může vyjít, že B je celkově lepší.

Příklad (ilustrativní)

Následující zjednodušený příklad ukazuje princip (číselné hodnoty jsou smyšlené, aby ilustrovaly myšlenku):

  • Skupina 1: Léčba A má 90 úspěchů z 100 pokusů (90 %), léčba B má 80 z 100 (80 %) — A je lepší.
  • Skupina 2: Léčba A má 1 úspěch z 10 pokusů (10 %), léčba B má 9 z 10 (90 %) — B je lepší.
  • Pokud má do Skupiny 1 většinu pacientů užívajících A a do Skupiny 2 většinu pacientů užívajících B, může se stát, že celkově (po sloučení obou skupin) bude mít B vyšší celkovou úspěšnost — i když v obou homogenních skupinách byl A lepší (nebo naopak). Situace závisí na relativních velikostech skupin a na tom, jak jsou pacienti rozloženi mezi skupinami a léčbami.

Proč k paradoxu dochází

  • Vážený průměr: Celková míra je vážený průměr mír v jednotlivých podskupinách. Pokud váhy (počty případů v podskupinách) nejsou stejné pro porovnávané skupiny, mohou váhy „převážit“ menší či větší úspěšnosti v jednotlivých skupinách a změnit celkové pořadí.
  • Skryté (lze nazvat i „lurking“) proměnné: Paradox je obvykle důsledkem jiné proměnné (konfounderu), která ovlivňuje jak rozložení případů mezi skupiny, tak i výsledek. Například pohlaví, věk, závažnost onemocnění nebo volba oddělení na univerzitě mohou být takové konfoundery.
  • Observační data vs. kauzalita: Simpsonův paradox je varováním, že prosté porovnávání frekvencí nebo mír z pozorovacích dat může vést k chybným závěrům o příčinných vztazích.

Jak paradox odhalit a jak se mu vyhnout

  • Stratifikovat data: Podívat se na výsledky v homogenních podskupinách (např. podle věku, pohlaví, závažnosti onemocnění) namísto vycházení pouze z celkových součtů.
  • Kontrolovat konfoundery: Použít regresní modely (např. logistickou regresi), víceproměnné analýzy nebo metody párování (matching), které berou v úvahu potenciální rušivé proměnné.
  • Kauzální rámce: Použít nástroje kauzální inference, např. kauzální grafy (DAG), a zvažovat, které proměnné je třeba kontrolovat, aby se odhalil skutečný příčinný efekt.
  • Náhodné přiřazení: Pokud je to možné, preferovat randomizované experimenty, které eliminují mnoho typů konfoundingu.
  • Citlivostní analýza: Zkoumat, jak by se výsledky změnily při různém zařazení nebo kontrole podskupin a hledat stabilitu závěrů.

Důsledky a upozornění

Simpsonův paradox nevypovídá sám o sobě o „chybě“ ve sběru dat — jde o logický důsledek agregace. Je ale důležité si uvědomit, že:

  • Analýza pouze agregovaných dat může vést k zavádějícím závěrům.
  • Rozhodnutí založená na nesprávně interpretovaných frekvencích mohou mít reálné škodlivé dopady (např. špatná volba léčby, nespravedlivé rozhodování při přijímacím řízení apod.).
  • Vždy je třeba uvažovat o možné existenci skrytých proměnných a o vhodnosti sloučení skupin.

Krátká historická poznámka

Jak už bylo zmíněno, efekt je pojmenován podle Edwarda H. Simpsona (1951), avšak podobné jevy popisovali dřívější statistici jako Karl Pearson (1899) nebo Udny Yule (1903). Z toho důvodu se někdy setkáme i s názvem Yule–Simpsonův efekt.

Závěr: Simpsonův paradox je praktické varování pro každého, kdo interpretuje statistická data: před vyvozením závěrů je třeba podívat se na strukturu dat, zvážit možné konfoundery a pokud možno použít metody, které zohledňují rozdělení případů mezi podskupiny.