Continue rapport · gwen.works/internshiplogs@4422c01

+40 -1

bib.yaml

··· 424 424 - Radford, Alec 425 425 - Klimov, Oleg 426 426 date: 2017 427 - url: https://arxiv.org/abs/1707.06347 427 + url: 428 + value: https://arxiv.org/abs/1707.06347 429 + date: 2025-10-10 428 430 serial-number: 429 431 arxiv: '1707.06347' 430 432 ··· 437 439 serial-number: 438 440 doi: 10.1007/978-981-19-7784-8 439 441 442 + maxq: 443 + type: article 444 + title: Hierarchical Reinforcement Learning with the {MAXQ} Value Function Decomposition 445 + author: Dietterich, Thomas G. 446 + date: 1999 447 + url: 448 + value: https://arxiv.org/abs/cs/9905014 449 + date: 2002 450 + parent: 451 + type: periodical 452 + title: CoRR 453 + maxq-discount: 454 + type: article 455 + title: 'How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies' 456 + author: 457 + - François-Lavet, Vincent 458 + - Fonteneau, Raphaël 459 + - Ernst, Damien 460 + date: 2015 461 + url: 462 + value: http://arxiv.org/abs/1512.02011 463 + date: '2025-10-13' 464 + serial-number: 465 + arxiv: '1512.02011' 466 + parent: 467 + type: periodical 468 + title: CoRR 469 + 470 + qlearning-etymology: 471 + type: article 472 + title: Demystifying deep reinforcement learning 473 + author: Tambet Matiisen 474 + publisher: Computational Neuroscience Research Group at University of Tartu 475 + date: 2015-12-19 476 + url: 477 + value: https://web.archive.org/web/20180407053740/http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ 478 + date: 2025-10-13

+4 -1

cite-bibtex.fish

··· 9 9 10 10 echo Adding $id 11 11 12 + set now (date --iso-8601) 13 + 12 14 echo "$contents" \ 13 15 | hayagriva --format bibtex /dev/stdin \ 14 - | yq -Y "with_entries(.key = \"$id\")" \ 16 + | yq -y "with_entries(.key = \"$id\")" \ 17 + | yq -y ".[\"$id\"].url = { value: .[\"$id\"].url, date: \"$now\" }" \ 15 18 >> bib.yaml 16 19 17 20

+9 -2

rapport/context.typ

··· 185 185 186 186 ==== _Q-learning_ 187 187 188 - La récompense associée à un état et une action, appelée $Q$ ici pour "quality" #refneeded, est mise à jour ainsi: 188 + La récompense associée à un état $S_t$ et une action $A_t$, appelée $Q(S_t, A_t)$ ici pour "quality" @qlearning-etymology, est mise à jour ainsi @maxq: 189 189 190 190 $ 191 - Q(S_t, A_t) <- (1 - alpha) underbrace(Q(S_t, A_t), "valeur actuelle") + alpha ( underbrace(R_(t+1), "récompense") + gamma underbrace(max_a Q(S_(t+1), a), "récompense de la meilleure\naction pour l'état suivant") ) 191 + Q(S_t, A_t) <- (1 - alpha) underbrace(Q(S_t, A_t), "valeur actuelle") + alpha ( underbrace(R_(t+1), "récompense\npour cette action") + gamma underbrace(max_a Q(S_(t+1), a), "récompense de la meilleure\naction pour l'état suivant") ) 192 192 $ 193 + 194 + L'expression comporte deux hyperparamètres: 195 + 196 + / Learning rate $alpha$: contrôle à quel point l'on favorise l'évolution de $Q$ ou pas. // Il est commun de progressivement baisser $alpha$, ce qui donne lieu à des phases plus "exploratives" ($alpha$ élevé, exploration de nouvelles actions) ou "exploitative" ($alpha$ faible, exploitation des récompenses connues) #refneeded 197 + / Discount factor $gamma$: contrôle l'importance que l'on donne aux récompenses futures. Il est utile de commencer avec une valeur faible puis l'augmenter avec le temps @maxq-discount. 198 + 199 + 193 200 194 201 ==== _Trust Region Policy Optimization_ 195 202

rapport/main.pdf

This is a binary file and will not be displayed.

Configure Feed

Configure Feed