Biologie učení posilováním je popsána na stránkách Operantní podmiňování a Odměna.

Učení posilováním (Reinforcement Learning, RL) je učení softwarového agenta, jak se má chovat v prostředí, tím, že mu říkáme, jak dobře si vede. Jedná se o oblast strojového učení inspirovanou behavioristickou psychologií.

Učení s posilováním se liší od učení pod dohledem, protože správné vstupy a výstupy nejsou nikdy zobrazeny. Na rozdíl od učení s dohledem se posilování obvykle učí za pochodu (online učení). To znamená, že agent musí volit mezi zkoumáním a setrváním u toho, co zná nejlépe.

Základní pojmy

  • Agent – entita, která volí akce.
  • Prostředí (environment) – vše, s čím agent interaguje; po každé akci vrací nový stav a odměnu.
  • Stav (state) – popis aktuální situace prostředí (může být plně nebo částečně pozorovatelný).
  • Akce (action) – rozhodnutí nebo krok, který agent provede.
  • Odměna (reward) – okamžitá hodnota, která říká, jak byla akce dobrá; cílem agenta je maximalizovat kumulativní odměnu.
  • Politika (policy) – pravidlo, podle kterého agent vybírá akce (deterministická nebo stochastická).
  • Hodnotová funkce (value) – odhad očekávané další kumulativní odměny z daného stavu nebo páru stav–akce.
  • Model – předpověď dynamiky prostředí (přechodů stavů a odměn); model-based metody ho využívají, model-free ne.
  • Diskontní faktor (γ) – číslo 0–1, které určuje, jak dalece se upřednostňují okamžité odměny před budoucími.

Cíl učení

Cílem je nalézt politiku, která maximalizuje očekávaný kumulativní (často diskontovaný) součet odměn, např. E[∑_{t=0}^∞ γ^t r_t]. V praxi jde o učení z interakcí bez zpřesněného učitele – agent zkouší, získává odměny a postupně zlepšuje své chování.

Klíčové principy a problémy

  • Explorace vs. exploatace – dilema mezi zkoušením nových akcí (možná lepších) a využíváním známých dobrých akcí. Praktiky: epsilon-greedy, softmax, UCB.
  • Kreditní přiřazení (credit assignment) – jak připsat zásluhy nebo vinu jednotlivým akcím za odložené výsledky.
  • Sparse rewards – když jsou odměny vzácné, učení je obtížnější; řešení: shaping odměn, relabelling, intrinsické motivace.
  • Částečná pozorovatelnost – když agent nevidí celý stav (řeší se pamětí, RNN, POMDP přístupem).
  • Stabilita a sample-efficiency – zejména u reálných aplikací (robotika, finance) je důležitá efektivita využití dat a stabilita učení.

Hlavní třídy algoritmů

  • Model-free hodnotové metody – např. Q-learning, SARSA; učí hodnoty akcí bez modelu prostředí.
  • Policy-based metody – přímo optimalizují politiku (např. REINFORCE, policy gradient metody); vhodné pro spojité akční prostory.
  • Actor-critic – kombinuje politiku (actor) a hodnotovou funkci (critic) pro stabilnější a efektivnější učení.
  • Model-based metody – agent vytváří nebo využívá model prostředí pro plánování; často sample-efektivní, ale náchylné na chybný model.
  • Deep Reinforcement Learning – použití neuronových sítí jako aproximátorů (např. DQN, Deep Deterministic Policy Gradient, PPO); umožňuje škálovat do složitých vizuálních či spojitých úloh.

Praktické techniky a tipy

  • Normalizovat vstupy a odměny, používat replay buffer a cílové sítě (target networks) u DQN pro stabilitu.
  • U policy-gradient metod používat baseline (např. hodnotovou funkci) ke snížení variance gradientů.
  • Reward shaping s rozmyslem – pomáhá, ale může vést k nechtěným vedlejším efektům (reward hacking).
  • Testovat generalizaci na různých instancích prostředí a měřit sample-efficiency.

Aplikace

  • Hry (Atari, šachy, Go) – známé úspěchy deep RL.
  • Robotika – učení ovládání, manipulace a pohybu.
  • Systémy doporučení a řízení provozu – optimalizace dlouhodobého cíle.
  • Finanční obchodování, plánování výroby, řízení zdrojů a další rozhodovací systémy.

Výzvy a etika

Mezi hlavní výzvy patří bezpečnost (bezpečné nasazení v reálném světě), robustnost vůči odchylkám prostředí, etické aspekty (neúmyslné chování, diskriminace) a interpretovatelnost naučených politik. Důležitá je kontrola a validace chování agenta mimo tréninkové prostředí.

Učení posilováním propojuje techniky z informatiky, statistiky a kognitivních věd a má silné paralely s biologickým operantním podmiňováním a principy odměny, jak bylo uvedeno na začátku.