如图所示,瞧这美美的发际线,是本人,错不了。本人,打酱油的栋栋拐,立个flag,坚持更随笔。在座的各位,Hello啊。
单智能体、多智能体强化学习基本概念
- 什么是单智能体强化学习?
- 单智能体强化学习中基本算法分类?
- 为啥提出多智能体强化学习?
- 多智能体强化学习基本概念?
- 多智能体强化学习基本现状?
- 参考
什么是单智能体强化学习?
1、如图所示,单智能体强化学习的设置由两部分组成:一个智能体和环境。
2、模型描述:马尔可夫决策过程,即<状态集S、动作集A、奖励R、状态转移概率P、奖励衰减因子、探索率、策略>,最大的特性为下一时刻的状态和奖励,只与前一时刻的状态与动作有关,与更早之前的状态与行为无关,详细分析见基于马尔可夫过程的强化学习入门。
3、强化学习的原理:强化学习是让智能体以试错的方式来进行学习。智能体某个行为策略导致了好的奖赏,智能体产生这个行为策略的形式就会加强。智能体需要学习的就是:在一个环境中如何选择动作来获得最大奖励。其中,奖励值与智能体在环境中的任务息息相关。另外,智能体需要的主要学习任务是行为策略。其中,行为策略的学习目标是最优策略,也就是使用这样的策略,让智能体在特定环境中获得最大奖励值,从而实现任务目标。
4、强化学习的目标:在每个状态下发现最优策略来使期望的折扣奖励最大化。
5、强化学习可以解决的问题:可以描述为智能体在于环境交互过程中通过学习策略来达到回报最大化或实现特定目标的问题。目前,被广泛应用在各个领域。
6、所述的动作可以简单描述为:连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。
单智能体强化学习中基本算法分类?
强化学习中有很多算法来寻找最优策略。另外,算法有很多分类。
1、按照有无模型分:有模型(事先知道转移概率P,并且作为输入,算法为动态规划)、无模型(试错,事先不知道转移概率P,算法为:蒙特卡罗算法、Q-Learning、Sarsa、Policy Gradients);
2、基于策略(输出下一步所采取的各种动作的概率,根据概率来采取动作:Policy Gradients)和基于价值(输出所有动作的价值,根据最高价值来选动作,不适用于连续动作:Q-Learning,Sarsa等)(由于基于策略和价值的算法都各有优缺点,由此集合在一起就有了Actor-Critic算法,其中Actor可以基于概率做出动作,而Critic会对做出的动作做出动作的价值,这就在前述的policy gradients上加速了学习过程);
3、单步更新(游戏中每一步都在更新,可以边玩边学习:QLearning、Sarsa、升级版的policy
gradients)和回合更新(游戏开始后,等游戏结束,再总结所有转折点,在更新行为准则:基础版的policy gradients、Monte-carlo learning);
4、在线学习(必须我本人在场,边玩边学:一般只有一个策略,最常见的是e-贪婪,即SARSA算法)、离线学习(从过往的经验里,但是过往的经验没必要是自己的:一般有两个策略,常见的是e-贪婪来选择新的动作,另一个贪婪法更新价值函数,即,常见的Q-Learning)。
5、千万注意,一定要明确不同的强化学习算法的优缺点以便于求解不同类型的问题。比如:Q-Learning适合解决低纬度且离散动作及状态空间,DQN适合解决低纬度动作和高纬度状态空间、DDPG适合求解高纬度(连续)动作空间及状态空间。
6、详细分类,见后文附带的链接。
为啥提出多智能体强化学习?
*自然是传统的集中式单智能体强化学习某些场景下不适用奥。废话不多说,讲道理! *
1–传统的多智能体RL算法中,每个智能体走势在不断学习且改进其策略。由此,从每个智能体的角度来看,环境是不稳定的,不利于收敛。而传统的单智能体强化学习,需要稳定的环境
2–由于环境的不稳定,无法通过仅改变智能体本身的策略来适应动态不稳定的环境。
3–由于环境的不稳定,无法直接使用经验回放等DQN技巧。
4–因为大量智能体的交互会导致不可避免的反馈开销。更重要的是,生成的马尔可夫过程通常很难处理。用于MDP的数值求解技术遭受所谓的“维数诅咒”,这使它们在计算上不可行。
所以,多智能体强化学习被提出。
多智能体强化学习基本概念?
1-如图所示,多智能体系统中至少有两个智能体。另外,智能体之间存在着一定的关系,如合作关系,竞争关系,或者同时存在竞争与合作的关系。每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。
2-多智能体强化学习的描述:马尔可夫博弈。也就是说,状态转换符合马尔可夫过程,关系符合博弈。可以表示为<N,S,A,Ri,T>,其中,N表示的是智能体的集合,S表示的是环境的状态空间、Ai表示的是智能体i的动作空间,A=A1A2…An表示为联合动作,R表示智能体i的奖励,T为状态转换函数。
3-一般来说,在马尔可夫博弈中,每个智能体的目标为找到最优策略来使它在任意状态下获得最大的长期累积奖励。
多智能体强化学习基本现状?
1-多智能体强化学习研究成果较少,并且多智能体强化学习没有系统的网络课程。另外,多智能体强化学习算法缺少系统的开源代码。再就是多智能体强化学习所涉及到的理论知识更多,如马尔科夫决策过程,博弈论等。
2-本人学习代码会参考Open AI提供的开源代码。强化学习对于代码能力要求好高,拐拐灰常菜,呜呜呜呜呜呜呜,再不学就失业啦。
3-UCL的汪军老师结合MFG与MARL,提出了MFMARL对于解决部分超密集问题有效。在这里有详细证明嗷。拐拐好笨丫。
参考
多智能体现状、基本定义
强化学习算法详细分类
在座的各位,未完待续啊。拐拐愿大家开学愉快。Happy!!!