Vzájemná informace měří, o kolik více je známo o jedné náhodné hodnotě, když je dána jiná. Například znalost teploty náhodného dne v roce sice neprozradí, jaký je to měsíc, ale něco napoví. Stejně tak znalost toho, jaký je měsíc, neodhalí přesnou teplotu, ale určí, že určité teploty jsou více či méně pravděpodobné. Tyto náznaky nebo změny pravděpodobnosti se vysvětlují a měří pomocí vzájemné informace.
Definice
Vzájemná informace dvou náhodných proměnných X a Y je množství informace o jedné proměnné, které je obsaženo v druhé. Formálně ji lze vyjádřit jako rozdíl mezi entropií a podmíněnou entropií:
- I(X;Y) = H(X) − H(X|Y) = H(Y) − H(Y|X)
Tato definice ukazuje, že vzájemná informace udává, o kolik se sníží neurčitost (entropie) jedné proměnné, je-li známa druhá.
Vzorec (diskrétní případy)
Pro diskrétní náhodné proměnné je ekvivalentní explicitní vzorec přes rozdělení pravděpodobnosti:
- I(X;Y) = ∑_{x,y} p(x,y) log ( p(x,y) / (p(x)p(y)) )
Kde součet probíhá přes všechny hodnoty x a y. Základ logaritmu určuje jednotku informace: log base 2 → bity, natural log → nát (naty).
Vzájemná informace se také zapisuje jako Kullback–Leiblerova divergence mezi spojným rozdělením a produktem marginálních rozdělení:
- I(X;Y) = D_{KL}( p(x,y) || p(x)p(y) )
Tento tvar zdůrazňuje, že I(X;Y) měří odchylku skutečného společného rozdělení od rozdělení, které by platilo při nezávislosti.
Interpretace a vlastnosti
- Nezápornost: I(X;Y) ≥ 0; rovnost nastane právě tehdy, když jsou X a Y nezávislé.
- Symetrie: I(X;Y) = I(Y;X).
- Omezení: I(X;Y) ≤ min(H(X), H(Y)).
- Řetězové pravidlo: I(X;Y,Z) = I(X;Y) + I(X;Z|Y).
- Pointwise vzájemná informace (PMI): pmi(x;y) = log ( p(x,y) / (p(x)p(y)) ), přičemž I(X;Y) je očekávaná hodnota PMI.
Příklady výpočtu
1) Nezávislé binární proměnné:
- Předpokládejme X a Y jsou nezávislé s p(0)=p(1)=0.5. Pak p(x,y)=p(x)p(y)=0.25 pro všechny páry a
- I(X;Y) = 0 (žádná informace).
2) Perfektně korelované binární proměnné:
- Nechť p(0,0)=0.5, p(1,1)=0.5 a ostatní = 0. Pak znalost X určuje Y přesně, takže I(X;Y) = H(X) = 1 bit (pokud jsou marginály rovnoměrné).
3) Konkrétní numerický příklad:
Uvažujme společné rozdělení
- p(0,0)=0.4, p(0,1)=0.1, p(1,0)=0.1, p(1,1)=0.4.
Marginály: pX(0)=0.5, pX(1)=0.5, pY(0)=0.5, pY(1)=0.5. Potom
- I(X;Y) = 0.4·log2(0.4/0.25) + 0.1·log2(0.1/0.25) + 0.1·log2(0.1/0.25) + 0.4·log2(0.4/0.25)
- ≈ 0.4·0.6781 + 0.1·(−1.3219) + 0.1·(−1.3219) + 0.4·0.6781 ≈ 0.278 bits.
Tento výsledek říká, že znalost jedné proměnné sníží neurčitost o ~0.278 bitu.
Spojitý případ
Pro spojité náhodné proměnné X,Y se sumy nahradí integrály a používá se diferenciální entropie:
- I(X;Y) = ∫∫ p(x,y) log ( p(x,y) / (p(x)p(y)) ) dx dy
Vzájemná informace pro spojité proměnné zůstává ≥ 0, ale je třeba opatrnosti při interpretaci diferenciální entropie (může být záporná). I(X;Y) je však vždy nezáporná a informativní.
Aplikace a odhad vzájemné informace
- Odhad z dat: Pro diskrétní proměnné lze použít empirické četnosti (plug-in estimator), ale ten bývá při malých vzorcích zkreslený. K dispozici jsou korekce (Miller–Madow) nebo Bayesovské odhady.
- Pro spojitá data: používají se metody kernelové hustoty, K-nearest neighbors (Kozachenko–Leonenko přístupy) nebo parametrické modely.
- Využití: v informatice a telekomunikacích (kapacita kanálu = max_{p(x)} I(X;Y)), v bioinformatice a genetice (odhalení závislostí mezi proměnnými), ve strojovém učení pro výběr příznaků (feature selection) a v neurovědách při analýze informací mezi neurony.
Praktické poznámky
- Vzájemná informace měří obecnou závislost (nejen lineární), na rozdíl od korelačního koeficientu.
- Pro reálná data bývá potřeba řešit odhad při omezeném počtu vzorků a volbu úsudné diskrretizace nebo odhadovacích parametrů.
- Vzájemná informace nezaručuje kauzalitu — pouze statistickou závislost.
Stručné shrnutí
Vzájemná informace kvantifikuje, jak moc znalost jedné proměnné snižuje neurčitost o druhé. Má pevné vztahy k entropii a Kullback–Leiblerově divergenci, je symetrická a nezáporná, a nachází široké uplatnění všude tam, kde je třeba měřit závislosti mezi proměnnými.