【doc】基于Q学习与CBL结合的机器人足球行为学习研究下载_Word模板_10

is_348501

暂无简介

【doc】基于Q学习与CBL结合的机器人足球行为学习研究【doc】基于Q学习与CBL结合的机器人足球行为学习研究基于Q学习与CBL结合的机器人足球行为学习研究第24卷第4期 VoI.24,No.4 西华大学?自然科学版 JournalofXihuaUniversity?NaturalScience 2005年7月 Jd.2005 文章编号:1673—159X(2005)04—0058—03 基于Q学习与CBL结合的机器人足球行为学习研究柳在鑫,王进戈,王强 (西华大学机械工程与自动化学院,四川成都610039) 摘要:提出了一种足球机器人基于Q学习与...

【doc】基于Q学习与CBL结合的机器人足球行为学习研究基于Q学习与CBL结合的机器人足球行为学习研究第24卷第4期 VoI.24,No.4 西华大学?自然科学版 JournalofXihuaUniversity?NaturalScience 2005年7月 Jd.2005 文章编号:1673—159X(2005)04—0058—03 基于Q学习与CBL结合的机器人足球行为学习研究柳在鑫,王进戈,王强 (西华大学机械工程与自动化学院,四川成都610039) 摘要:提出了一种足球机器人基于Q学习与案例学习(CBL)相结合的自主学习机制.足球机器人通过给定的当前位置和奖赏信号,自己学习来实现特定的动作,为了降低学习时的计算复杂度,状态空间通过分段映射为不同的类别,根据其普遍性以及有限的所必须的计算机内存,采用神经网络的学习来执行其动作. 关键词:足球机器人;Q学习;CBL;马尔可夫环境;神经网络中图分类号:TP242.6文献标识码:A StudyofBehaviorLearningforSoccerRobotBasedonQLearningandCBL LlUZai—xin,WANGJin—ge.WANGQiang (SchoolofMechanicalEngineeringandAut?tion,XihuaUniversity,ch衄 gdu610039China) Abstract:Inthispaper,amechanismofbehaviorlearningforsoccerrobotactionselectionbased onQlearningandcasebasedlearningisproposed.Therobotlearnstoactivateaparticularmovement throughtheircurrentgivensituationandrewardedsigna1.Inordertodecreasethenumberofstate. actionpairs,thestatespaceissegmentedintodifferentcategories.Neuralnetworkisadoptedto implementationsoflearningfortheirgeneralizationpropertiesandlimitedcomputermemory requirements. Keywords:soccerrobot;Qlearning;CBL;Markovenvironment;neuralnetwork 足球机器人在运动的过程中,由于环境不断变化,无法获得环境的完备信息,难以预先建立环境的精确模型,传统的监督学习方法不能满足足球机器人在未知环境中的行为学习,足球机器人必须具有智能行为学习能力.强化学习作为一种非典型的学习方法,提供智能体在Markov环境中利用所经历的动作序列选择最优动作的一种能力,并且不需要建立环境模型,已广泛应用于机器人领域,尤其是智能机器人的行为学习,如轨迹规划和动作选择等,取得了一定的成果.但是也存在一定的局限性:强化学习的计算复杂度随着状态——动作对的增加而呈指数上升;强化学习在与环境的交互时的试错可能给系统带来风险损失. 针对强化学习存在的上述局限性,本文作者提出了基于Q学习与CBL结合的机器人足球行为学习机制.该学习机制根据足球机器人和传感器的性能,将机器人的行为策略学习过程分解为多步局部学习过程;状态空间被分段为有限数目的类别,从而降低状态——动作对数量. 1Q学习 Q学习算法实际是MDP(MarkovDecisi0n Processes)的一种变化形式,它运用在Markov环境中的动作序列使智能体完成最佳动作选择,在选择动作之后智能体没有被告诉它下一步应该选择收稿日期:2004—10—06修改日期:2005—04—10 作者简介:柳在鑫(1978一),男,湖北省黄梅县人,西华大学机械工程与自动化学院讲师,硕士,主要从事足球机器人的研究. 第4期柳在鑫等:基于Q学习与CBL结合的机器人足球行为学习研究59 哪些动作而只是瞬间的奖赏和随后的状态,并搜索对最佳动作有积极影响的系统状态,动作,变化,奖赏. 定义:Markov决策过程是一个四元数组,(S, A,r,P),其中S是离散状态空间,A是离散动作集合,r:S×A—R是智能体的奖赏函数,P:S×A 一?是变换函数,?是状态空间S的概率分布. 假设环境是有限的Markov过程,机器人系统能从有限的动作集中选择动作.其状态变换如下: prb【s=&+1/s,.a,:P【&,a,,&+1J,(1) 设机器人所处的环境由有限离散状态s0,s., s2,…,s组成,机器人的行为从状态空间S至动作空间A的映射:厂:S—A,即机器人在环境状态S 下,可选择有限动作集合A中的某一动作a执行, 环境接受该动作后状态发生变化,同时产生一个强化信号r反馈给机器人,机器人根据强化信号和当前状态选择下一个动作执行.机器人行为学习的目标是学习优化的行为策略,以获得最优的折扣强化信号值.由于在未知环境中,强化信号r与机器人产生的动作a之间没有精确的函数形式

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

示,机器人学习优化行为过程通过直接优化一个可迭代的 Q函数实现,Q函数为在状态s时执行动作a,且此后按最优动作序列执行时的折扣累计强化值,即 Q(&,a,):r+ymax{Q(&+1,a,+1)la,+1?A} (2) 式中,y为折扣因子,满足04y?1,智能机器人在行为学习时选择动作的原则是使受到正强化的概率增大,选择的动作不仅影响立即强化值,同时也影响环境的下一状态及最终的强化值. 2机器人足球行为学习 2.1状态空间的分段把在场上运动的足球机器人的周围环境划分为前,后,左,右四个方位,足球机器人通过悬挂在其上方所配备的传感器获得四个方位的工作环境状态, 以实现在未知环境中探测障碍物,并安全移动到目标点.环境状态通过周围障碍物的距离信息进行描述,任一环境状态可表示为笛卡儿乘积: &St1×St2×St3×St4,(3) 式中集合&中的元素分别表示机器人与前后左右障碍物的距离数值. 由于状态空间是高维的连续空间,导致机器人在行为学习时的状态——动作对数量是无限的,从而使机器人在线行为学习难以实现.而机器人避障学习时,如此精确的状态刻划是不必要的,本文作者将状态的各个子集s(14i44)分段划分为有限个类别,每个类别分别表示障碍物距离远近的不同级别:da,ne,md,Sa和fa,对应危险,较近,中,安全和较远等等级,分段函数如下式表示,设d为障碍物的距离信息,为机器人的最小安全距离,L为机器人的边长: g(d)= da0<d4. PO<d4L . J 专<?, <d4L,了, d>L. (4) 经过公式(4)的转换,状态空间由连续的数值表示转换为有限个数的符号表示,从而显着地减少了状态——动作对的数量,降低了行为学习时的计算复杂度. 2.2动作集合与足球机器人的结构相一致,在进行动作选择时,由于队员的动作很容易受到对方球员技术的影响,因此在进行队员决策时为了确保其一致性,要避免其变异.足球机器人在训练中常常遵循某些已固有的策略,每个队员都被提供了一些常用动作,通过实验可以归纳一些基本动作: (1)射门(Shoot):队员把球踢进对方球门;(2) 传球(Push):队员传球给对友;(3)断球(Intercept): 队员截断球及对方的进攻路线;(4)守门(Goa1):守门员拦截对方的射门; 队员通过在当前环境下运用Q学习进行动作选择并创立适合的动作来把动作程序化,从而进一步进行优化. 2.3Q学习与CBL的结合基于案例库的学习(casebasedlearning)是一种增量式的机器学习方法,该方法适合较难发现规律性的知识且因果关系难以用精确模型表示的领域.由于机器人在多步的局部行为学习时所处的环境状态具有一定的相似性,因此作者将Q学习与CBL相结合,以加速机器人的行为学习过程.案例库中的案例包括环境信息,产生的相关动作和动作的奖赏等信息,足球机器人案例库结构如下: 60西华大学?自然科学版2005钲表1案例库结构案例库中包含两种类型的案例:规则案例和自学习案例: 1)规则案例:依据机器人的性能和相关领域经验所预先设计的案例,令A如r6表示禁止的动作集合,则规则库表示为表2规则案例的表示 2)自学习案例:足球机器人在与环境交互时按案例库的规定自主生成的相关案例.自学习案例的生成可以有效地利用足球机器人在未知环境中的行为学习时的经历,提高机器人的在线学习能力. 足球机器人在初始的行为学习时,案例库中只存在规则案例,机器人通过Q学习选择符合规则案例约束的动作执行,并将学习结果产生新案例保存. 随着学习的进行,如果案例库中存在与当前状态匹配的案例,则机器人选择该案例指定的动作执行,否则自动生成新案例保存. 2.4行为学习在Q学习里,智能体对于所有的S?S,a?A 以任意的初始值Q(S,a)开始.在每个时间t,算法模块提供了当前的奖赏和状态,它返回一个放大的信号来显示应该建立怎样的动作.换句话说,队员动作的选择是建立在奖赏r,的基础上.接着智能体在以下方程式的基础上更新它的Q值: Q学习主要采用查询功能代替Q函数.但由于当数量较大时Q值需要很大的存储空间,因此采用神经网络来完成Q学习.神经网络的输出对应于每个动作的Q值,输入与环境的状态相对应.学习系统自动更新在所接受的增强信号基础上所建立的权重矩阵.信号显示队员的当前动作是否适合, 以及信息适合性再现的程度.其步骤如下: Q一动作值函数的初始值集合(初始化为0) Repeat (1)得到在时刻t时环境状态s; (2)计算每个动作的Q值; (3)判断当前状态与经验提供的状态S是否匹配? 匹配转(4),否则转(5); (4)选择状态s确定的合法动作ai; (5)对应Q值以Boltzman分布P(n,S)= 0(,a)/丁 ?.『7于确定的概率随机选择一个动作ai,其中丁为一I,EAe 温度系数,丁越大,随机性越强,机器人碰没碰到障碍物为强化信号,如果碰到障碍物,则Q值减去一个单位值,否则 Q值增加一个单位值; (6)执行动作n得到新的环境状态S+1及增强的信号强化信号按下式予以定义: (4) Q(+1,乜)=rt+),啦{Q(+1,乜)};(5) (8)调整神经网络的权值?Q ?Q=rt+),哆(+1,乜)一胜出者, 因此把积分作为判定的

标准

excel标准偏差 excel标准偏差函数 exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载

.表中的数据分别表示了参赛的次数及平均得分,实验数据见表3所示. 表3实验数据通过实验数据显示Q学习可用来进行动作选择,实现了足球机器人的智能行为学习. 参考文献 [1]史忠植.高级人工智能[M].北京:科学出版社,1998. [2]张汝波,等.强化学习理论,算法及应用[J].控制理论与应用,2000,10. [3]朴松昙,等.一种动态环境下移动机器人的轨迹规划方法 [j].机器人,2003,(1). (责任编辑:夏

书

关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf

林) 篇惮

本文档为【【doc】基于Q学习与CBL结合的机器人足球行为学习研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

【doc】基于Q学习与CBL结合的机器人足球行为学习研究

热门搜索

历史搜索