北京治疗白癜风多少钱咨询 https://yyk.39.net/bj/zhuanke/89ac7.html强化学习的基本理论
强化学习(ReinforcementLearning,RL)是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决decisionmaking问题,即自动进行决策,并且可以做连续决策。
事实上,所谓机器学习就是利用数学上的某种算法让机器模仿生物的行为,比如在深度学习普及之前我们很难让计算机识别物体,但即使是智力不高的生物也可以识别几百种物体,并作出判断。再比如人类幼崽在出生的时候十分脆弱,除了条件反射之外的任何技能都需要学习,但是学习的成果会非常显著。更进一步这种学习行为可以让人类拥有创造能力也就是所谓的智能,这正是人工智能(Artificialintelligence,A.I.)所追求的目标。当然真正智能的A.I.还没有诞生,但是利用强化学习算法,人工智能已经可以在某些方面超过人类了。
强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。
强化学习最重要解决实际问题,但是任何计算机都只能解决数学问题,于是就有了数学建模的说法,数学模型就是将实际问题转化为数学问题的过程。强化学习将一个复杂的实际问题拆分成简单的几个要素,分别是:
AgentEnvironmentStateandActionGoal强化学习的基本要素让我们分析一场五子棋的对局,首先要有棋手,一般是两个人。如果是人和电脑对弈就只有一个玩家,那么作为主体的玩家就被称为Agent。玩家之外的空间要素统统称为环境(Environment)。那么时间上,双方每走一步棋盘上的局势就会发生变化,当前的局势就被称为State,至此我们来到了强化学习最关键的地方,那就是在某一个特定的局势(State)下,怎么分析当前的局势?我们是已经胜券在握还是已经没有希望赢得比赛可以直接发起投降?这是其一。其二,如果我们评估当前的局势后得出了“六十万对八十万,优势在我”的结论,又该怎么运筹帷幄采取下一步的行动使得这场对局可以赢得干净利落?
还是用五子棋举例,假设有一个9X9的五子棋棋盘,那么就一共有81个落子的位置,如果我们知道在这81个位置上落子,最终获胜的概率有多大,那我们就选择获胜概率最大的那个位置落子不就可以了吗?所以说强化学习学的就是这样一种概率分布函数,告诉我们该如何采取下一步的行动。在强化学习出现之前这种角色一直由棋谱扮演,棋谱提供了一种策略(policy)提示,只要我们使用棋谱提供的策略进行对弈(Action)就有很大的可能取得胜利。所以这种提供策略的概率密度函数被称为策略函数(Policy),习惯上使用希腊字母
来表示。我们训练所得的策略函数的最终目标(Goal)是让我们取得对局的最终胜利,也就是说我们只