Přehled

Korelace ve statistice a ve teorii pravděpodobnosti označuje míru, jak těsně spolu souvisejí dvě proměnné. Nejedná se o jediný typ vztahu — korelace může být kladná (obě proměnné rostou společně), záporná (jedna roste, druhá klesá) nebo nulová (bez zjevné závislosti). Pro základní vizualizaci vztahu se často používá graf rozptylu, na kterém může být zakreslena přímka nejlepší shody.

Měření korelace

Míru korelace vyjadřují různé koeficienty. Nejznámější je Pearsonův korelační koeficient, který měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot od -1 do +1. Hodnota blízká ±1 znamená silnou lineární souvislost, hodnota blízká 0 signalizuje slabou nebo žádnou lineární závislost.

  • Pearsonův r – pro lineární vztahy, citlivý na odlehlé hodnoty a předpoklad normality.
  • Spearmanův rho – pořadová korelace, robustnější vůči nelinearitě a odlehlým hodnotám.
  • Kendallovo tau – alternativní pořadová míra vhodná pro menší soubory dat.
  • Specializované míry: biseriální, Cramérův V, autokorelace u časových řad a křížová korelace.

Interpretace a omezení

Velká korelace neznamená příčinnou souvislost: za pozorovanou korelací může stát společný třetí faktor, konfúze nebo čistě náhodná shoda. Pearsonův koeficient zachycuje pouze lineární vztahy; nelineární závislost může mít nízké r, přesto být silná. Další omezení zahrnují vliv extrémních hodnot, porušení předpokladů (např. heteroskedasticita) a citlivost na rozsah dat.

Historie a vývoj

Práce na kvantifikaci vztahů mezi proměnnými sahá do přelomu 19. a 20. století; významné přínosy přinesli empirické a matematické metody pro měření korelace. Postupně vznikaly různé koeficienty přizpůsobené typům dat a cíli analýzy, například pořadové indexy pro neparametrickou analýzu.

Použití a příklady

  • Ve zdravotnictví se korelace používá k identifikaci asociací mezi rizikovými faktory a výsledky léčby.
  • V ekonomii a financích pomáhá hodnotit souběžné pohyby aktiv a tvořit diverzifikované portfolia.
  • V sociálních vědách a epidemiologii slouží k průzkumu souvislostí před navržením příčinných studií.
  • V datové vědě se korelace používá pro předvýběr proměnných a jako část diagnostiky modelů.

Důležitá rozlišení a doporučení

Při práci s korelací je vhodné kombinovat numerické ukazatele se zobrazením dat (např. graf rozptylu), testováním statistické významnosti a analýzou možných konfuzních proměnných. K prokázání kauzality se využívají experimenty, randomizace, longitudinální studie nebo metody instrumentálních proměnných; korelace sama o sobě postačující důkaz neposkytuje. Více informací o teoretických základech najdete ve zdrojích věnovaných analýze závislostí mezi proměnnými.