为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

【doc】基于Q学习与CBL结合的机器人足球行为学习研究

2018-04-11 10页 doc 25KB 25阅读

用户头像

is_348501

暂无简介

举报
【doc】基于Q学习与CBL结合的机器人足球行为学习研究【doc】基于Q学习与CBL结合的机器人足球行为学习研究 基于Q学习与CBL结合的机器人足球行为 学习研究 第24卷第4期 VoI.24,No.4 西华大学?自然科学版 JournalofXihuaUniversity?NaturalScience 2005年7月 Jd.2005 文章编号:1673—159X(2005)04—0058—03 基于Q学习与CBL结合的机器人足球行为学习研究 柳在鑫,王进戈,王强 (西华大学机械工程与自动化学院,四川成都610039) 摘要:提出了一种足球机器人基于Q学习与...
【doc】基于Q学习与CBL结合的机器人足球行为学习研究
【doc】基于Q学习与CBL结合的机器人足球行为学习研究 基于Q学习与CBL结合的机器人足球行为 学习研究 第24卷第4期 VoI.24,No.4 西华大学?自然科学版 JournalofXihuaUniversity?NaturalScience 2005年7月 Jd.2005 文章编号:1673—159X(2005)04—0058—03 基于Q学习与CBL结合的机器人足球行为学习研究 柳在鑫,王进戈,王强 (西华大学机械工程与自动化学院,四川成都610039) 摘要:提出了一种足球机器人基于Q学习与案例学习(CBL)相结合的自主学习机制.足球机器人通过给定 的当前位置和奖赏信号,自己学习来实现特定的动作,为了降低学习时的计算复杂度,状态空间通过分段映射为不 同的类别,根据其普遍性以及有限的所必须的计算机内存,采用神经网络的学习来执行其动作. 关键词:足球机器人;Q学习;CBL;马尔可夫环境;神经网络 中图分类号:TP242.6文献标识码:A StudyofBehaviorLearningforSoccerRobotBasedonQLearningandCBL LlUZai—xin,WANGJin—ge.WANGQiang (SchoolofMechanicalEngineeringandAut?tion,XihuaUniversity,ch衄 gdu610039China) Abstract:Inthispaper,amechanismofbehaviorlearningforsoccerrobotactionselectionbased onQlearningandcasebasedlearningisproposed.Therobotlearnstoactivateaparticularmovement throughtheircurrentgivensituationandrewardedsigna1.Inordertodecreasethenumberofstate. actionpairs,thestatespaceissegmentedintodifferentcategories.Neuralnetworkisadoptedto implementationsoflearningfortheirgeneralizationpropertiesandlimitedcomputermemory requirements. Keywords:soccerrobot;Qlearning;CBL;Markovenvironment;neuralnetwork 足球机器人在运动的过程中,由于环境不断变 化,无法获得环境的完备信息,难以预先建立环境的 精确模型,传统的监督学习方法不能满足足球机器 人在未知环境中的行为学习,足球机器人必须具有 智能行为学习能力.强化学习作为一种非典型的学 习方法,提供智能体在Markov环境中利用所经历 的动作序列选择最优动作的一种能力,并且不需要 建立环境模型,已广泛应用于机器人领域,尤其是智 能机器人的行为学习,如轨迹规划和动作选择等,取 得了一定的成果.但是也存在一定的局限性:强化 学习的计算复杂度随着状态——动作对的增加而呈 指数上升;强化学习在与环境的交互时的试错可能 给系统带来风险损失. 针对强化学习存在的上述局限性,本文作者提 出了基于Q学习与CBL结合的机器人足球行为学 习机制.该学习机制根据足球机器人和传感器的性 能,将机器人的行为策略学习过程分解为多步局部 学习过程;状态空间被分段为有限数目的类别,从而 降低状态——动作对数量. 1Q学习 Q学习算法实际是MDP(MarkovDecisi0n Processes)的一种变化形式,它运用在Markov环境 中的动作序列使智能体完成最佳动作选择,在选 择动作之后智能体没有被告诉它下一步应该选择 收稿日期:2004—10—06修改日期:2005—04—10 作者简介:柳在鑫(1978一),男,湖北省黄梅县人,西华大学机械工程与 自动化学院讲师,硕士,主要从事足球机器人的研究. 第4期柳在鑫等:基于Q学习与CBL结合的机器人足球行为学习研 究59 哪些动作而只是瞬间的奖赏和随后的状态,并搜 索对最佳动作有积极影响的系统状态,动作,变 化,奖赏. 定义:Markov决策过程是一个四元数组,(S, A,r,P),其中S是离散状态空间,A是离散动作 集合,r:S×A—R是智能体的奖赏函数,P:S×A 一?是变换函数,?是状态空间S的概率分布. 假设环境是有限的Markov过程,机器人系统 能从有限的动作集中选择动作.其状态变换如下: prb【s=&+1/s,.a,:P【&,a,,&+1J,(1) 设机器人所处的环境由有限离散状态s0,s., s2,…,s组成,机器人的行为从状态空间S至动作 空间A的映射:厂:S—A,即机器人在环境状态S 下,可选择有限动作集合A中的某一动作a执行, 环境接受该动作后状态发生变化,同时产生一个强 化信号r反馈给机器人,机器人根据强化信号和当 前状态选择下一个动作执行.机器人行为学习的目 标是学习优化的行为策略,以获得最优的折扣强化 信号值.由于在未知环境中,强化信号r与机器人 产生的动作a之间没有精确的函数形式示,机器 人学习优化行为过程通过直接优化一个可迭代的 Q函数实现,Q函数为在状态s时执行动作a,且 此后按最优动作序列执行时的折扣累计强化值,即 Q(&,a,):r+ymax{Q(&+1,a,+1)la,+1?A} (2) 式中,y为折扣因子,满足04y?1,智能机器人在 行为学习时选择动作的原则是使受到正强化的概率 增大,选择的动作不仅影响立即强化值,同时也影响 环境的下一状态及最终的强化值. 2机器人足球行为学习 2.1状态空间的分段 把在场上运动的足球机器人的周围环境划分为 前,后,左,右四个方位,足球机器人通过悬挂在其上 方所配备的传感器获得四个方位的工作环境状态, 以实现在未知环境中探测障碍物,并安全移动到目 标点.环境状态通过周围障碍物的距离信息进行描 述,任一环境状态可表示为笛卡儿乘积: &St1×St2×St3×St4,(3) 式中集合&中的元素分别表示机器人与前后左右 障碍物的距离数值. 由于状态空间是高维的连续空间,导致机器人 在行为学习时的状态——动作对数量是无限的,从 而使机器人在线行为学习难以实现.而机器人避障 学习时,如此精确的状态刻划是不必要的,本文作者 将状态的各个子集s(14i44)分段划分为有限 个类别,每个类别分别表示障碍物距离远近的不同 级别:da,ne,md,Sa和fa,对应危险,较近,中,安全 和较远等等级,分段函数如下式表示,设d为障碍 物的距离信息,为机器人的最小安全距离,L为机 器人的边长: g(d)= da0<d4. PO<d4L . J 专<?, <d4L,了, d>L. (4) 经过公式(4)的转换,状态空间由连续的数值表 示转换为有限个数的符号表示,从而显着地减少了 状态——动作对的数量,降低了行为学习时的计算 复杂度. 2.2动作集合 与足球机器人的结构相一致,在进行动作选择 时,由于队员的动作很容易受到对方球员技术的影 响,因此在进行队员决策时为了确保其一致性,要避 免其变异.足球机器人在训练中常常遵循某些已固 有的策略,每个队员都被提供了一些常用动作,通过 实验可以归纳一些基本动作: (1)射门(Shoot):队员把球踢进对方球门;(2) 传球(Push):队员传球给对友;(3)断球(Intercept): 队员截断球及对方的进攻路线;(4)守门(Goa1):守 门员拦截对方的射门; 队员通过在当前环境下运用Q学习进行动作 选择并创立适合的动作来把动作程序化,从而进一 步进行优化. 2.3Q学习与CBL的结合 基于案例库的学习(casebasedlearning)是一 种增量式的机器学习方法,该方法适合较难发现 规律性的知识且因果关系难以用精确模型表示的 领域.由于机器人在多步的局部行为学习时所处 的环境状态具有一定的相似性,因此作者将Q学 习与CBL相结合,以加速机器人的行为学习过 程.案例库中的案例包括环境信息,产生的相关 动作和动作的奖赏等信息,足球机器人案例库结 构如下: 60西华大学?自然科学版2005钲 表1案例库结构 案例库中包含两种类型的案例:规则案例和自 学习案例: 1)规则案例:依据机器人的性能和相关领域经 验所预先设计的案例,令A如r6表示禁止的动作集 合,则规则库表示为 表2规则案例的表示 2)自学习案例:足球机器人在与环境交互时按 案例库的规定自主生成的相关案例.自学习案例的 生成可以有效地利用足球机器人在未知环境中的行 为学习时的经历,提高机器人的在线学习能力. 足球机器人在初始的行为学习时,案例库中只 存在规则案例,机器人通过Q学习选择符合规则案 例约束的动作执行,并将学习结果产生新案例保存. 随着学习的进行,如果案例库中存在与当前状态匹 配的案例,则机器人选择该案例指定的动作执行,否 则自动生成新案例保存. 2.4行为学习 在Q学习里,智能体对于所有的S?S,a?A 以任意的初始值Q(S,a)开始.在每个时间t,算法 模块提供了当前的奖赏和状态,它返回一个放大的 信号来显示应该建立怎样的动作.换句话说,队员 动作的选择是建立在奖赏r,的基础上.接着智能 体在以下方程式的基础上更新它的Q值: Q学习主要采用查询功能代替Q函数.但由 于当数量较大时Q值需要很大的存储空间,因此采 用神经网络来完成Q学习.神经网络的输出对应 于每个动作的Q值,输入与环境的状态相对应.学 习系统自动更新在所接受的增强信号基础上所建立 的权重矩阵.信号显示队员的当前动作是否适合, 以及信息适合性再现的程度.其步骤如下: Q一动作值函数的初始值集合(初始化为0) Repeat (1)得到在时刻t时环境状态s; (2)计算每个动作的Q值; (3)判断当前状态与经验提供的状态S是否匹配? 匹配转(4),否则转(5); (4)选择状态s确定的合法动作ai; (5)对应Q值以Boltzman分布P(n,S)= 0(,a)/丁 ?.『7于确定的概率随机选择一个动作ai,其中丁为 一I,EAe 温度系数,丁越大,随机性越强,机器人碰没碰到障碍物为 强化信号,如果碰到障碍物,则Q值减去一个单位值,否则 Q值增加一个单位值; (6)执行动作n得到新的环境状态S+1及增强的信号 强化信号按下式予以定义: (4) Q(+1,乜)=rt+),啦{Q(+1,乜)};(5) (8)调整神经网络的权值?Q ?Q=rt+),哆(+1,乜)一胜出者, 因此把积分作为判定的.表中的数据分别表示 了参赛的次数及平均得分,实验数据见表3所示. 表3实验数据 通过实验数据显示Q学习可用来进行动作选 择,实现了足球机器人的智能行为学习. 参考文献 [1]史忠植.高级人工智能[M].北京:科学出版社,1998. [2]张汝波,等.强化学习理论,算法及应用[J].控制理论与应 用,2000,10. [3]朴松昙,等.一种动态环境下移动机器人的轨迹规划方法 [j].机器人,2003,(1). (责任编辑:夏林) 篇 惮
/
本文档为【【doc】基于Q学习与CBL结合的机器人足球行为学习研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索