Učení s posilováním

Biologie učení posilováním je popsána na stránkách Operantní podmiňování a Odměna.

Učení posilováním (Reinforcement Learning, RL) je učení softwarového agenta, jak se má chovat v prostředí, tím, že mu říkáme, jak dobře si vede. Jedná se o oblast strojového učení inspirovanou behavioristickou psychologií.

Učení s posilováním se liší od učení pod dohledem, protože správné vstupy a výstupy nejsou nikdy zobrazeny. Na rozdíl od učení s dohledem se posilování obvykle učí za pochodu (online učení). To znamená, že agent musí volit mezi zkoumáním a setrváním u toho, co zná nejlépe.

Úvod

Systém učení s posilováním se skládá z politiky ( π {\displaystyle \pi }{\displaystyle \pi } ), funkce odměny ( R {\displaystyle R}{\displaystyle R} ), funkce hodnoty ( v {\displaystyle v}{\displaystyle v} ) a volitelného modelu prostředí.

Zásady říkají agentovi, co má v určité situaci dělat. Může to být jednoduchá tabulka pravidel nebo složité hledání správné akce. Politiky mohou být i stochastické, což znamená, že místo pravidel politika přiřazuje jednotlivým akcím pravděpodobnosti. Politika sama o sobě může agenta přimět, aby něco udělal, ale nemůže se sama učit.

Funkce odměny definuje cíl pro agenta. Přijímá stav (nebo stav a akci provedenou v tomto stavu) a vrací zpět číslo nazývané odměna, které agentovi říká, jak dobré je být v tomto stavu. Úkolem agenta je získat z dlouhodobého hlediska co největší odměnu. Pokud akce přináší nízkou odměnu, agent pravděpodobně v budoucnu provede lepší akci. Biologie používá signály odměny, jako je potěšení nebo bolest, aby zajistila, že organismy zůstanou naživu a budou se moci rozmnožovat. Signály odměny mohou být také stochastické, podobně jako hrací automaty v kasinu, kde se někdy vyplácí a někdy ne.

Hodnotová funkce říká agentovi, jak velkou odměnu získá, když se bude řídit politikou π {\displaystyle \pi }{\displaystyle \pi } počínaje stavem s {\displaystyle s}{\displaystyle s} . Vyjadřuje, jak žádoucí je být v určitém stavu. Protože hodnotová funkce není agentovi přímo dána, musí přijít s dobrým odhadem nebo tipem na základě odměny, kterou dosud získal. Odhad hodnotové funkce je nejdůležitější částí většiny algoritmů posilovacího učení.

Model je mentální kopie prostředí, kterou si agent vytvořil. Používá se k plánování budoucích akcí.

S tímto vědomím můžeme hovořit o hlavní smyčce pro epizodu učení s posilováním. Agent interaguje s prostředím v diskrétních časových krocích. Představte si to jako "tikot" hodin. V diskrétním čase se věci dějí pouze během "tikání" a "tikání", nikoliv mezi nimi. V každém čase t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}agent pozoruje stav prostředí S t {\displaystyle S_{t}}{\displaystyle S_{t}} a vybírá akci A t {\displaystyle A_{t}}{\displaystyle A_{t}} na základě politiky π {\displaystyle \pi } {\displaystyle \pi }. V dalším časovém kroku agent obdrží signál odměny R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} a nové pozorování S t + 1 {\displaystyle S_{t+1}}. {\displaystyle S_{t+1}}. Hodnotová funkce v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} se aktualizuje pomocí odměny. Takto se pokračuje, dokud není dosaženo konečného stavu S T {\displaystyle S_{T}} . {\displaystyle S_{T}}

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3