Spearmanův koeficient pořadové korelace
Spearmanův korelační koeficient je v matematice a statistice míra korelace, pojmenovaná po svém tvůrci Charlesi Spearmanovi. Zapisuje se zkráceně jako řecké písmeno rho ( ρ {\displaystyle \rho } ) nebo někdy jako r s {\displaystyle r_{s}}. . Je to číslo, které ukazuje, jak úzce spolu souvisejí dva soubory dat. Lze jej použít pouze pro údaje, které lze seřadit, například od nejvyššího po nejnižší.
Obecný vzorec pro r s {\displaystyle r_{s}} je ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}}. .
Například pokud máte k dispozici údaje o tom, jak drahé jsou různé počítače, a údaje o tom, jak jsou počítače rychlé, můžete zjistit, zda jsou propojené a jak těsně jsou propojené, pomocí r s {\displaystyle r_{s}}. .
Vypracování
První krok
Chcete-li zjistit r s {\displaystyle r_{s}}, musíte nejprve seřadit jednotlivé údaje. Použijeme příklad z úvodu o počítačích a jejich rychlosti.
Počítač s nejnižší cenou by se tedy umístil na 1. místě. Ten s vyšší hodnotou by měl 2. Pak se postupuje nahoru, dokud nejsou všechny hodnoceny. Toto musíte provést s oběma sadami dat.
Cena ($) | R a n k 1 {\displaystyle Rank_{1}} | Rychlost (GHz) | R a n k 2 {\displaystyle Rank_{2}} | |
A | 200 | 1 | 1.80 | 2 |
B | 275 | 2 | 1.60 | 1 |
C | 300 | 3 | 2.20 | 4 |
D | 350 | 4 | 2.10 | 3 |
E | 600 | 5 | 4.00 | 5 |
Druhý krok
Dále musíme zjistit rozdíl mezi oběma hodnostmi. Poté tento rozdíl vynásobíme sebou samým, čemuž se říká odmocňování. Rozdíl se nazývá d {\displaystyle d} , a číslo, které dostanete po odmocnění d {\displaystyle d}, se nazývá d 2 {\displaystyle d^{2}}. .
R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
1 | 2 | -1 | 1 |
2 | 1 | 1 | 1 |
3 | 4 | -1 | 1 |
4 | 3 | 1 | 1 |
5 | 5 | 0 | 0 |
Třetí krok
Spočítejte, kolik dat máme. Tato data mají stupně 1 až 5, takže máme 5 dat. Toto číslo se nazývá n {\displaystyle n} .
Čtvrtý krok
Nakonec použijte vše, co jsme dosud zjistili, v tomto vzorci: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}. .
∑ d 2 {\displaystyle \sum d^{2}} znamená, že vezmeme součet všech čísel, která byla ve sloupci d 2 {\displaystyle d^{2}}. . To proto, že ∑ {\displaystyle \sum } znamená celkem.
Takže ∑ d 2 {\displaystyle \sum d^{2}} je 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1}, což je 4. Vzorec říká, že se to vynásobí 6, což je 24.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} je 5 × ( 25 - 1 ) {\displaystyle 5\krát (25-1)}, což je 120.
Chcete-li tedy zjistit r s {\displaystyle r_{s}} jednoduše uděláme 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}=0,8} .
Proto je Spearmanův korelační koeficient pro tento soubor dat 0,8.
Co čísla znamenají
r s {\displaystyle r_{s}} dává vždy odpověď mezi -1 a 1. Čísla mezi nimi jsou jako stupnice, kde -1 je velmi silná vazba, 0 je žádná vazba a 1 je také velmi silná vazba. Rozdíl mezi 1 a -1 je v tom, že 1 je kladná korelace a -1 je záporná korelace. Graf dat s hodnotou r s {\displaystyle r_{s}} -1 by vypadal jako zobrazený graf s tím rozdílem, že přímka a body by šly zleva nahoru doprava dolů.
Například pro výše uvedená data byla hodnota r s {\displaystyle r_{s}} 0,8. To tedy znamená, že existuje pozitivní korelace. Protože se blíží hodnotě 1, znamená to, že mezi oběma soubory dat je silná vazba. Můžeme tedy říci, že tyto dva soubory dat jsou propojeny a jdou společně nahoru. Pokud by byla -0,8, mohli bychom říci, že jsou propojené a že když jeden z nich stoupá, druhý klesá.
Pokud jsou dvě čísla stejná
Někdy se při řazení dat vyskytují dvě nebo více stejných čísel. Když se to stane v r s {\displaystyle r_{s}} , vezmeme průměr nebo průměr pořadí, která jsou stejná. Těmto hodnostem se říká vázané hodnosti. Za tímto účelem vytvoříme pořadí vázaných čísel, jako by nebyla vázaná. Pak sečteme všechny hodnosti, které by měly, a vydělíme je tím, kolik jich je. Řekněme například, že jsme sestavovali pořadí, jak dobře si různí lidé vedli v testu pravopisu.
Výsledek testu | Hodnost | Pořadí (s vazbou) |
4 | 1 | 1 |
6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
8 | 5 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} |
8 | 6 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} |
Tato čísla se používají úplně stejně jako běžné hodnosti.
Související stránky
Otázky a odpovědi
Otázka: Co je Spearmanův koeficient korelace?
Odpověď: Spearmanův koeficient korelace je míra korelace, která ukazuje, jak úzce spolu souvisejí dva soubory dat. Lze jej použít pouze pro data, která lze seřadit, například od nejvyššího po nejnižší.
Otázka: Kdo vytvořil Spearmanův korelační koeficient?
Odpověď: Spearmanův korelační koeficient vytvořil Charles Spearman.
Otázka: Jak se zapisuje obecný vzorec pro Spearmanův korelační koeficient?
Odpověď: Obecný vzorec pro Spearmanův korelační koeficient se zapisuje jako ρ = 1 - 6∑d2/n(n2-1).
Otázka: Kdy byste měli použít Spearmanův korelační koeficient?
Odpověď: Spearmanův korelační koeficient pořadí byste měli použít, když chcete zjistit, jak úzce spolu dva soubory dat souvisejí a zda spolu vůbec souvisejí.
Otázka: S jakým typem dat pracuje?
Odpověď: Funguje s jakýmkoli typem dat, která lze seřadit, například od nejvyššího po nejnižší.
Otázka: Můžete uvést příklad, kde byste toto opatření použili?
Odpověď: Příkladem, kde byste tuto míru použili, může být, pokud máte data o tom, jak drahé jsou různé počítače, a data o tom, jak jsou počítače rychlé, pak byste mohli zjistit, zda jsou propojeny a jak těsně jsou propojeny pomocí r_s.