Vzájemná informace: co to je, definice, výpočet a příklady

Vzájemná informace: definice, výpočet, vzorce a názorné příklady, jak kvantifikovat sdílenou informaci a závislost mezi náhodnými veličinami.

Autor: Leandro Alegsa

Vzájemná informace měří, o kolik více je známo o jedné náhodné hodnotě, když je dána jiná. Například znalost teploty náhodného dne v roce sice neprozradí, jaký je to měsíc, ale něco napoví. Stejně tak znalost toho, jaký je měsíc, neodhalí přesnou teplotu, ale určí, že určité teploty jsou více či méně pravděpodobné. Tyto náznaky nebo změny pravděpodobnosti se vysvětlují a měří pomocí vzájemné informace.

 

Definice

Vzájemná informace dvou náhodných proměnných X a Y je množství informace o jedné proměnné, které je obsaženo v druhé. Formálně ji lze vyjádřit jako rozdíl mezi entropií a podmíněnou entropií:

  • I(X;Y) = H(X) − H(X|Y) = H(Y) − H(Y|X)

Tato definice ukazuje, že vzájemná informace udává, o kolik se sníží neurčitost (entropie) jedné proměnné, je-li známa druhá.

Vzorec (diskrétní případy)

Pro diskrétní náhodné proměnné je ekvivalentní explicitní vzorec přes rozdělení pravděpodobnosti:

  • I(X;Y) = ∑_{x,y} p(x,y) log ( p(x,y) / (p(x)p(y)) )

Kde součet probíhá přes všechny hodnoty x a y. Základ logaritmu určuje jednotku informace: log base 2 → bity, natural log → nát (naty).

Vzájemná informace se také zapisuje jako Kullback–Leiblerova divergence mezi spojným rozdělením a produktem marginálních rozdělení:

  • I(X;Y) = D_{KL}( p(x,y) || p(x)p(y) )

Tento tvar zdůrazňuje, že I(X;Y) měří odchylku skutečného společného rozdělení od rozdělení, které by platilo při nezávislosti.

Interpretace a vlastnosti

  • Nezápornost: I(X;Y) ≥ 0; rovnost nastane právě tehdy, když jsou X a Y nezávislé.
  • Symetrie: I(X;Y) = I(Y;X).
  • Omezení: I(X;Y) ≤ min(H(X), H(Y)).
  • Řetězové pravidlo: I(X;Y,Z) = I(X;Y) + I(X;Z|Y).
  • Pointwise vzájemná informace (PMI): pmi(x;y) = log ( p(x,y) / (p(x)p(y)) ), přičemž I(X;Y) je očekávaná hodnota PMI.

Příklady výpočtu

1) Nezávislé binární proměnné:

  • Předpokládejme X a Y jsou nezávislé s p(0)=p(1)=0.5. Pak p(x,y)=p(x)p(y)=0.25 pro všechny páry a
  • I(X;Y) = 0 (žádná informace).

2) Perfektně korelované binární proměnné:

  • Nechť p(0,0)=0.5, p(1,1)=0.5 a ostatní = 0. Pak znalost X určuje Y přesně, takže I(X;Y) = H(X) = 1 bit (pokud jsou marginály rovnoměrné).

3) Konkrétní numerický příklad:

Uvažujme společné rozdělení

  • p(0,0)=0.4, p(0,1)=0.1, p(1,0)=0.1, p(1,1)=0.4.

Marginály: pX(0)=0.5, pX(1)=0.5, pY(0)=0.5, pY(1)=0.5. Potom

  • I(X;Y) = 0.4·log2(0.4/0.25) + 0.1·log2(0.1/0.25) + 0.1·log2(0.1/0.25) + 0.4·log2(0.4/0.25)
  • ≈ 0.4·0.6781 + 0.1·(−1.3219) + 0.1·(−1.3219) + 0.4·0.6781 ≈ 0.278 bits.

Tento výsledek říká, že znalost jedné proměnné sníží neurčitost o ~0.278 bitu.

Spojitý případ

Pro spojité náhodné proměnné X,Y se sumy nahradí integrály a používá se diferenciální entropie:

  • I(X;Y) = ∫∫ p(x,y) log ( p(x,y) / (p(x)p(y)) ) dx dy

Vzájemná informace pro spojité proměnné zůstává ≥ 0, ale je třeba opatrnosti při interpretaci diferenciální entropie (může být záporná). I(X;Y) je však vždy nezáporná a informativní.

Aplikace a odhad vzájemné informace

  • Odhad z dat: Pro diskrétní proměnné lze použít empirické četnosti (plug-in estimator), ale ten bývá při malých vzorcích zkreslený. K dispozici jsou korekce (Miller–Madow) nebo Bayesovské odhady.
  • Pro spojitá data: používají se metody kernelové hustoty, K-nearest neighbors (Kozachenko–Leonenko přístupy) nebo parametrické modely.
  • Využití: v informatice a telekomunikacích (kapacita kanálu = max_{p(x)} I(X;Y)), v bioinformatice a genetice (odhalení závislostí mezi proměnnými), ve strojovém učení pro výběr příznaků (feature selection) a v neurovědách při analýze informací mezi neurony.

Praktické poznámky

  • Vzájemná informace měří obecnou závislost (nejen lineární), na rozdíl od korelačního koeficientu.
  • Pro reálná data bývá potřeba řešit odhad při omezeném počtu vzorků a volbu úsudné diskrretizace nebo odhadovacích parametrů.
  • Vzájemná informace nezaručuje kauzalitu — pouze statistickou závislost.

Stručné shrnutí

Vzájemná informace kvantifikuje, jak moc znalost jedné proměnné snižuje neurčitost o druhé. Má pevné vztahy k entropii a Kullback–Leiblerově divergenci, je symetrická a nezáporná, a nachází široké uplatnění všude tam, kde je třeba měřit závislosti mezi proměnnými.

Výpočet vzájemné informace

Požadované informace

K výpočtu vzájemné informace je třeba znát pravděpodobnost (náhodu) všech možných událostí a pravděpodobnost, že nastanou současně. Například pro měření vzájemné informace mezi měsícem a teplotou bychom potřebovali vědět, kolik dní v roce je 10 stupňů Celsia, kolik dní z roku je březen a konečně kolik dní je v březnu 10 stupňů Celsia.

Vzorec

Vzorec vyžaduje sčítání mnoha členů nebo čísel. Každý možný výsledek má svůj vlastní člen. Z výše uvedeného výpočtu vzájemné informace mezi měsícem a teplotou použijeme následující proměnné:

  • p(x,y) = pravděpodobnost, že v měsíci y bude x stupňů Celsia
  • t(x) = pravděpodobnost, že bude x stupňů Celsia (v kterýkoli den v roce)
  • m(y) = pravděpodobnost, že se jedná o měsíc y

To znamená, že m(3) se rovná pravděpodobnosti, že náhodně vybraný den připadne na březen. Je to 31/365, tedy přibližně 0,085, protože 31 z 365 dnů v roce připadá na březen.

Jeden termín by byl následující:

p ( x , y ) log ( p ( x , y ) t ( x ) m ( y ) ) {\displaystyle p(x,y)\log {\left({\frac {p(x,y)}{t(x)m(y)}}\right)}\,\! } {\displaystyle p(x,y)\log {\left({\frac {p(x,y)}{t(x)m(y)}}\right)}\,\!}

V tomto vzorci znamená "log" logaritmus.

Součtem všech možných výrazů získáme hodnotu vzájemné informace.

 

Porozumění vzájemné informaci

Možné hodnoty

Čím větší je vzájemná informace, tím více se dozvíte o jedné náhodné hodnotě (např. měsíci), když vám řekneme jinou (např. teplotu).

  • Pokud je vzájemná informace nulová, nemůžete o jedné hodnotě určit nic, pokud je dána jiná hodnota.
    • Pokud například víte, zda jste minule hodili mincí hlavou, nebo orel, nic vám to neřekne o tom, co se stane příště.
  • Pokud je vzájemná informace malá, nemusí být žádná vzájemná informace. Někdy se zdá, že náhodné události mají krátkodobě určitý vzorec, ale celkově neexistuje žádná vzájemná informace.
  • Pokud je vzájemná informace velká, je pravděpodobné, že mezi oběma sledovanými věcmi existuje nějaká souvislost.
    • Protože teplota a měsíc spolu souvisejí, jejich vzájemná informace by byla mnohem větší než nula.
    • Není snadné zjistit, zda je vzájemná informace významná nebo velká.
  • Pokud je vzájemná informace jedna, pak vám znalost jedné hodnoty přesně řekne hodnotu druhou.
    • Pokud je například ve třídě vybrána náhodná lavice, může učitel přesně vědět, který žák v ní bude sedět. Když víme, která lavice byla vybrána, přesně víme, který student je k ní připojen.

Důležitá fakta

Vzájemná informace se nemění v závislosti na tom, která ze dvou náhodných hodnot je odhalena. To znamená, že o teplotě víme stejně, když nám sdělíme měsíc, jako o měsíci, když nám sdělíme teplotu.

Vzájemné informace se obtížně porovnávají. Pokud vypočítáme vzájemnou informaci pro počasí a jinou hodnotu pro karetní hru, nelze tyto dvě hodnoty snadno porovnat.

 

Související stránky

  • Teorie informací
 


Vyhledávání
AlegsaOnline.com - 2020 / 2025 - License CC3