Reinforcement Learning (učení posilováním): definice a principy

Reinforcement Learning (učení posilováním): jasná definice, klíčové principy, rozdíly od učení pod dohledem, průzkum vs. exploatace a praktické příklady pro implementaci.

Autor: Leandro Alegsa

Biologie učení posilováním je popsána na stránkách Operantní podmiňování a Odměna.

Učení posilováním (Reinforcement Learning, RL) je učení softwarového agenta, jak se má chovat v prostředí, tím, že mu říkáme, jak dobře si vede. Jedná se o oblast strojového učení inspirovanou behavioristickou psychologií.

Učení s posilováním se liší od učení pod dohledem, protože správné vstupy a výstupy nejsou nikdy zobrazeny. Na rozdíl od učení s dohledem se posilování obvykle učí za pochodu (online učení). To znamená, že agent musí volit mezi zkoumáním a setrváním u toho, co zná nejlépe.

Základní pojmy

  • Agent – entita, která volí akce.
  • Prostředí (environment) – vše, s čím agent interaguje; po každé akci vrací nový stav a odměnu.
  • Stav (state) – popis aktuální situace prostředí (může být plně nebo částečně pozorovatelný).
  • Akce (action) – rozhodnutí nebo krok, který agent provede.
  • Odměna (reward) – okamžitá hodnota, která říká, jak byla akce dobrá; cílem agenta je maximalizovat kumulativní odměnu.
  • Politika (policy) – pravidlo, podle kterého agent vybírá akce (deterministická nebo stochastická).
  • Hodnotová funkce (value) – odhad očekávané další kumulativní odměny z daného stavu nebo páru stav–akce.
  • Model – předpověď dynamiky prostředí (přechodů stavů a odměn); model-based metody ho využívají, model-free ne.
  • Diskontní faktor (γ) – číslo 0–1, které určuje, jak dalece se upřednostňují okamžité odměny před budoucími.

Cíl učení

Cílem je nalézt politiku, která maximalizuje očekávaný kumulativní (často diskontovaný) součet odměn, např. E[∑_{t=0}^∞ γ^t r_t]. V praxi jde o učení z interakcí bez zpřesněného učitele – agent zkouší, získává odměny a postupně zlepšuje své chování.

Klíčové principy a problémy

  • Explorace vs. exploatace – dilema mezi zkoušením nových akcí (možná lepších) a využíváním známých dobrých akcí. Praktiky: epsilon-greedy, softmax, UCB.
  • Kreditní přiřazení (credit assignment) – jak připsat zásluhy nebo vinu jednotlivým akcím za odložené výsledky.
  • Sparse rewards – když jsou odměny vzácné, učení je obtížnější; řešení: shaping odměn, relabelling, intrinsické motivace.
  • Částečná pozorovatelnost – když agent nevidí celý stav (řeší se pamětí, RNN, POMDP přístupem).
  • Stabilita a sample-efficiency – zejména u reálných aplikací (robotika, finance) je důležitá efektivita využití dat a stabilita učení.

Hlavní třídy algoritmů

  • Model-free hodnotové metody – např. Q-learning, SARSA; učí hodnoty akcí bez modelu prostředí.
  • Policy-based metody – přímo optimalizují politiku (např. REINFORCE, policy gradient metody); vhodné pro spojité akční prostory.
  • Actor-critic – kombinuje politiku (actor) a hodnotovou funkci (critic) pro stabilnější a efektivnější učení.
  • Model-based metody – agent vytváří nebo využívá model prostředí pro plánování; často sample-efektivní, ale náchylné na chybný model.
  • Deep Reinforcement Learning – použití neuronových sítí jako aproximátorů (např. DQN, Deep Deterministic Policy Gradient, PPO); umožňuje škálovat do složitých vizuálních či spojitých úloh.

Praktické techniky a tipy

  • Normalizovat vstupy a odměny, používat replay buffer a cílové sítě (target networks) u DQN pro stabilitu.
  • U policy-gradient metod používat baseline (např. hodnotovou funkci) ke snížení variance gradientů.
  • Reward shaping s rozmyslem – pomáhá, ale může vést k nechtěným vedlejším efektům (reward hacking).
  • Testovat generalizaci na různých instancích prostředí a měřit sample-efficiency.

Aplikace

  • Hry (Atari, šachy, Go) – známé úspěchy deep RL.
  • Robotika – učení ovládání, manipulace a pohybu.
  • Systémy doporučení a řízení provozu – optimalizace dlouhodobého cíle.
  • Finanční obchodování, plánování výroby, řízení zdrojů a další rozhodovací systémy.

Výzvy a etika

Mezi hlavní výzvy patří bezpečnost (bezpečné nasazení v reálném světě), robustnost vůči odchylkám prostředí, etické aspekty (neúmyslné chování, diskriminace) a interpretovatelnost naučených politik. Důležitá je kontrola a validace chování agenta mimo tréninkové prostředí.

Učení posilováním propojuje techniky z informatiky, statistiky a kognitivních věd a má silné paralely s biologickým operantním podmiňováním a principy odměny, jak bylo uvedeno na začátku.

Úvod

Systém učení s posilováním se skládá z politiky ( π {\displaystyle \pi }{\displaystyle \pi } ), funkce odměny ( R {\displaystyle R}{\displaystyle R} ), funkce hodnoty ( v {\displaystyle v}{\displaystyle v} ) a volitelného modelu prostředí.

Zásady říkají agentovi, co má v určité situaci dělat. Může to být jednoduchá tabulka pravidel nebo složité hledání správné akce. Politiky mohou být i stochastické, což znamená, že místo pravidel politika přiřazuje jednotlivým akcím pravděpodobnosti. Politika sama o sobě může agenta přimět, aby něco udělal, ale nemůže se sama učit.

Funkce odměny definuje cíl pro agenta. Přijímá stav (nebo stav a akci provedenou v tomto stavu) a vrací zpět číslo nazývané odměna, které agentovi říká, jak dobré je být v tomto stavu. Úkolem agenta je získat z dlouhodobého hlediska co největší odměnu. Pokud akce přináší nízkou odměnu, agent pravděpodobně v budoucnu provede lepší akci. Biologie používá signály odměny, jako je potěšení nebo bolest, aby zajistila, že organismy zůstanou naživu a budou se moci rozmnožovat. Signály odměny mohou být také stochastické, podobně jako hrací automaty v kasinu, kde se někdy vyplácí a někdy ne.

Hodnotová funkce říká agentovi, jak velkou odměnu získá, když se bude řídit politikou π {\displaystyle \pi }{\displaystyle \pi } počínaje stavem s {\displaystyle s}{\displaystyle s} . Vyjadřuje, jak žádoucí je být v určitém stavu. Protože hodnotová funkce není agentovi přímo dána, musí přijít s dobrým odhadem nebo tipem na základě odměny, kterou dosud získal. Odhad hodnotové funkce je nejdůležitější částí většiny algoritmů posilovacího učení.

Model je mentální kopie prostředí, kterou si agent vytvořil. Používá se k plánování budoucích akcí.

S tímto vědomím můžeme hovořit o hlavní smyčce pro epizodu učení s posilováním. Agent interaguje s prostředím v diskrétních časových krocích. Představte si to jako "tikot" hodin. V diskrétním čase se věci dějí pouze během "tikání" a "tikání", nikoliv mezi nimi. V každém čase t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}agent pozoruje stav prostředí S t {\displaystyle S_{t}}{\displaystyle S_{t}} a vybírá akci A t {\displaystyle A_{t}}{\displaystyle A_{t}} na základě politiky π {\displaystyle \pi } {\displaystyle \pi }. V dalším časovém kroku agent obdrží signál odměny R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} a nové pozorování S t + 1 {\displaystyle S_{t+1}}. {\displaystyle S_{t+1}}. Hodnotová funkce v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} se aktualizuje pomocí odměny. Takto se pokračuje, dokud není dosaženo konečného stavu S T {\displaystyle S_{T}} . {\displaystyle S_{T}}

Zoom




Vyhledávání
AlegsaOnline.com - 2020 / 2025 - License CC3