毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
基于基底神经节的机器人强化学习机制研究(4)
(2)Q-学习算法(Q-Learning Algorithm)[6,7]
Q学习算法是由Watkins在1989年提出的一种无模型强化学习算法。Q学习可以看做一种增量式动态规划。它通过直接优化一个可迭代计算的动态值函数Q(s,a)来找到一个策略使得期望折扣报酬总和最大,而非TD算法中的状态值V(s)。这样,Agent在每一次的迭代中都需要考察每一个行为,可确保学习过程收敛。
(3)Sarsa算法[8]
Sarsa算法是Rummery和Niranjan于1994年提出的一种基于模型的算法,最初被称为改进的Q-学习算法。它仍然采用的是Q值迭代。Sarsa是一种在策略TD学习(on-policy TD)。Sarsa与Q-学习的差别在于Q-学习采用的是值函数的最大值进行迭代,而Sarsa则采用的是实际的Q值进行迭代。除此之外,Sarsa学习在每个学习步agent依据当前Q值确定下一个状态时的动作;而Q-学习中依赖修改后的Q值确定动作。因此称Sarsa是一种在策略TD学习。
(4)R-学习算法(R-Learning Algorithm)[8]
第一个基于平均报酬模型的强化学习算法是有Schwartz提出的R学习算法,它是一个无模型平均报酬强化学习算法,类似于Q-学习算法,用动作评价函数R(s,a)表示在状态S下执行以动作a为起点的策略π的平均校准值,随后Singh对这基本的R-学习算法进行了改进,用实际获得的报酬作为样本来估计平均报酬,并在每个时间步对平均报酬进行更新。除此之外,基于平均报酬模型的强化学习算法还有H-学习,LC学习,R-MAX学习等算法[8]。相比于基于折扣报酬的学习算法,对于基于平均报酬模型的强化学习算法研究尚不够成熟。
上述算法中,TD算法和Q-学习算法中,无需学习马尔可夫决策模型的知识,直接学习最优策略,属于典型的模型无关法。Sarsa算法先学习模型知识,后根据模型知识推导优化策略,属于基于模型法。模型无关法每次迭代计算量较小,但是由于没有充分利用学习中获取的知识,其收敛速度要比基于模型法慢的多。
2.3 研究趋势
近年来,强化学习的理论与应用研究日益受到重视,但是由于所面临真实世界的复杂性,在实际应用中仍有许多问题有待解决。目前,有关强化学习的课题得到了美国国防部、美国国家科学基金以及国家青年科学基金以及美国海军、空军研究办公室的资助。另外,德国、韩国、澳大利亚等国家的学者都在开展有关强化学习的理论和应用研究。目前,强化学习在国际上是十分活跃的研究领域,研究中的问题如下:
(1)环境的不完全感知,即部分可观马尔可夫模型问题,环境从一个状态转移到另一个状态不一定是马氏过程,若环境是非马氏过程,一些算法的学习效果可能不好,甚至不收敛[19]。
(2)连续状态和连续动作问题,通常研究的强化学习系统,其状态和动作都是有限的集合,而在实际问题中,其状态和动作往往是连续的,而连续空间的强化学习问题,目前研究的还不够深入[9]。
(3)还有探索(exploration)和利用(exploitation)问题。强化学习系统必须对这二者进行折衷处理,即获得知识和获得高回报之间进行折衷。探索对学习来说是重要的,只有通过探索才能确定最优策略,而过多的探索会降低系统的性能,甚至在某些情况下对学习产生不利的影响[3]。
近年来,随着生物学研究的发展,发现大脑皮层下的一群神经核团(基底神经节)在脊椎动物动物行为控制中发挥重要作用,新的仿生强化学习算法也成为研究热点[11]。因此,本文以基底神经节为切入点,研究机器人的强化学习机制。
2.4 基底神经节的生物学基础知识
2.4.1基底神经节
基底神经节是脊椎动物大脑皮层下一群核团的总称,又称为“基底核”,包括尾状核和豆状核(纹状体)、苍白核、黑质和底丘脑核[14],其结构和位置如图2.2所示。
共8页:
上一页
1
2
3
4
5
6
7
8
下一页
上一篇:
网络环境下一类中立型神经网络的自适应同步控制算法研究
下一篇:
MATLAB空炸射击高炮武器系统毁伤概率的计算
基于Kinect手势识别的遥操...
基于51单片机自动门智能控制系统设计
基于TI-DSP平台的电力电子测控平台设计
基于传感器网络的分布式集员滤波问题的研究
基于飞思卡尔芯片LED色彩控制器的设计
基于磁共振技术的家用无...
基于simulink的三相桥式全控...
谷度酒庄消费者回访调查问卷表
多元化刑事简易程序构建探讨【9365字】
浅谈传统人文精神茬大學...
《醉青春》导演作品阐述
国内外无刷直流电动机研究现状
中国古代秘书擅权的发展和恶变
高校网球场馆运营管理初探【1805字】
拉力采集上位机软件开发任务书
辩护律师的作证义务和保...
浅谈新形势下妇产科护理...