【doc】基于Q学习与CBL结合的机器人足球行为学习研究
基于Q学习与CBL结合的机器人足球行为
学习研究
第24卷第4期
VoI.24,No.4
西华大学?自然科学版
JournalofXihuaUniversity?NaturalScience
2005年7月
Jd.2005
文章编号:1673—159X(2005)04—0058—03
基于Q学习与CBL结合的机器人足球行为学习研究
柳在鑫,王进戈,王强
(西华大学机械工程与自动化学院,四川成都610039)
摘要:提出了一种足球机器人基于Q学习与案例学习(CBL)相结合的自主学习机制.足球机器人通过给定
的当前位置和奖赏信号,自己学习来实现特定的动作,为了降低学习时的计算复杂度,状态空间通过分段映射为不
同的类别,根据其普遍性以及有限的所必须的计算机内存,采用神经网络的学习来执行其动作.
关键词:足球机器人;Q学习;CBL;马尔可夫环境;神经网络
中图分类号:TP242.6文献标识码:A
StudyofBehaviorLearningforSoccerRobotBasedonQLearningandCBL
LlUZai—xin,WANGJin—ge.WANGQiang
(SchoolofMechanicalEngineeringandAut?tion,XihuaUniversity,ch衄
gdu610039China)
Abstract:Inthispaper,amechanismofbehaviorlearningforsoccerrobotactionselectionbased
onQlearningandcasebasedlearningisproposed.Therobotlearnstoactivateaparticularmovement
throughtheircurrentgivensituationandrewardedsigna1.Inordertodecreasethenumberofstate.
actionpairs,thestatespaceissegmentedintodifferentcategories.Neuralnetworkisadoptedto
implementationsoflearningfortheirgeneralizationpropertiesandlimitedcomputermemory
requirements.
Keywords:soccerrobot;Qlearning;CBL;Markovenvironment;neuralnetwork
足球机器人在运动的过程中,由于环境不断变
化,无法获得环境的完备信息,难以预先建立环境的
精确模型,传统的监督学习方法不能满足足球机器
人在未知环境中的行为学习,足球机器人必须具有
智能行为学习能力.强化学习作为一种非典型的学
习方法,提供智能体在Markov环境中利用所经历
的动作序列选择最优动作的一种能力,并且不需要
建立环境模型,已广泛应用于机器人领域,尤其是智
能机器人的行为学习,如轨迹规划和动作选择等,取
得了一定的成果.但是也存在一定的局限性:强化
学习的计算复杂度随着状态——动作对的增加而呈
指数上升;强化学习在与环境的交互时的试错可能
给系统带来风险损失.
针对强化学习存在的上述局限性,本文作者提
出了基于Q学习与CBL结合的机器人足球行为学
习机制.该学习机制根据足球机器人和传感器的性
能,将机器人的行为策略学习过程分解为多步局部
学习过程;状态空间被分段为有限数目的类别,从而
降低状态——动作对数量.
1Q学习
Q学习算法实际是MDP(MarkovDecisi0n
Processes)的一种变化形式,它运用在Markov环境
中的动作序列使智能体完成最佳动作选择,在选
择动作之后智能体没有被告诉它下一步应该选择
收稿日期:2004—10—06修改日期:2005—04—10
作者简介:柳在鑫(1978一),男,湖北省黄梅县人,西华大学机械工程与
自动化学院讲师,硕士,主要从事足球机器人的研究.
第4期柳在鑫等:基于Q学习与CBL结合的机器人足球行为学习研
究59
哪些动作而只是瞬间的奖赏和随后的状态,并搜
索对最佳动作有积极影响的系统状态,动作,变
化,奖赏.
定义:Markov决策过程是一个四元数组,(S,
A,r,P),其中S是离散状态空间,A是离散动作
集合,r:S×A—R是智能体的奖赏函数,P:S×A
一?是变换函数,?是状态空间S的概率分布.
假设环境是有限的Markov过程,机器人系统
能从有限的动作集中选择动作.其状态变换如下:
prb【s=&+1/s,.a,:P【&,a,,&+1J,(1)
设机器人所处的环境由有限离散状态s0,s.,
s2,…,s组成,机器人的行为从状态空间S至动作
空间A的映射:厂:S—A,即机器人在环境状态S
下,可选择有限动作集合A中的某一动作a执行,
环境接受该动作后状态发生变化,同时产生一个强
化信号r反馈给机器人,机器人根据强化信号和当
前状态选择下一个动作执行.机器人行为学习的目
标是学习优化的行为策略,以获得最优的折扣强化
信号值.由于在未知环境中,强化信号r与机器人
产生的动作a之间没有精确的函数形式
示,机器
人学习优化行为过程通过直接优化一个可迭代的
Q函数实现,Q函数为在状态s时执行动作a,且
此后按最优动作序列执行时的折扣累计强化值,即
Q(&,a,):r+ymax{Q(&+1,a,+1)la,+1?A}
(2)
式中,y为折扣因子,满足04y?1,智能机器人在
行为学习时选择动作的原则是使受到正强化的概率
增大,选择的动作不仅影响立即强化值,同时也影响
环境的下一状态及最终的强化值.
2机器人足球行为学习
2.1状态空间的分段
把在场上运动的足球机器人的周围环境划分为
前,后,左,右四个方位,足球机器人通过悬挂在其上
方所配备的传感器获得四个方位的工作环境状态,
以实现在未知环境中探测障碍物,并安全移动到目
标点.环境状态通过周围障碍物的距离信息进行描
述,任一环境状态可表示为笛卡儿乘积:
&St1×St2×St3×St4,(3)
式中集合&中的元素分别表示机器人与前后左右
障碍物的距离数值.
由于状态空间是高维的连续空间,导致机器人
在行为学习时的状态——动作对数量是无限的,从
而使机器人在线行为学习难以实现.而机器人避障
学习时,如此精确的状态刻划是不必要的,本文作者
将状态的各个子集s(14i44)分段划分为有限
个类别,每个类别分别表示障碍物距离远近的不同
级别:da,ne,md,Sa和fa,对应危险,较近,中,安全
和较远等等级,分段函数如下式表示,设d为障碍
物的距离信息,为机器人的最小安全距离,L为机
器人的边长:
g(d)=
da0<d4.
PO<d4L
.
J
专<?,
<d4L,了,
d>L.
(4)
经过公式(4)的转换,状态空间由连续的数值表
示转换为有限个数的符号表示,从而显着地减少了
状态——动作对的数量,降低了行为学习时的计算
复杂度.
2.2动作集合
与足球机器人的结构相一致,在进行动作选择
时,由于队员的动作很容易受到对方球员技术的影
响,因此在进行队员决策时为了确保其一致性,要避
免其变异.足球机器人在训练中常常遵循某些已固
有的策略,每个队员都被提供了一些常用动作,通过
实验可以归纳一些基本动作:
(1)射门(Shoot):队员把球踢进对方球门;(2)
传球(Push):队员传球给对友;(3)断球(Intercept):
队员截断球及对方的进攻路线;(4)守门(Goa1):守
门员拦截对方的射门;
队员通过在当前环境下运用Q学习进行动作
选择并创立适合的动作来把动作程序化,从而进一
步进行优化.
2.3Q学习与CBL的结合
基于案例库的学习(casebasedlearning)是一
种增量式的机器学习方法,该方法适合较难发现
规律性的知识且因果关系难以用精确模型表示的
领域.由于机器人在多步的局部行为学习时所处
的环境状态具有一定的相似性,因此作者将Q学
习与CBL相结合,以加速机器人的行为学习过
程.案例库中的案例包括环境信息,产生的相关
动作和动作的奖赏等信息,足球机器人案例库结
构如下:
60西华大学?自然科学版2005钲
表1案例库结构
案例库中包含两种类型的案例:规则案例和自
学习案例:
1)规则案例:依据机器人的性能和相关领域经
验所预先设计的案例,令A如r6表示禁止的动作集
合,则规则库表示为
表2规则案例的表示
2)自学习案例:足球机器人在与环境交互时按
案例库的规定自主生成的相关案例.自学习案例的
生成可以有效地利用足球机器人在未知环境中的行
为学习时的经历,提高机器人的在线学习能力.
足球机器人在初始的行为学习时,案例库中只
存在规则案例,机器人通过Q学习选择符合规则案
例约束的动作执行,并将学习结果产生新案例保存.
随着学习的进行,如果案例库中存在与当前状态匹
配的案例,则机器人选择该案例指定的动作执行,否
则自动生成新案例保存.
2.4行为学习
在Q学习里,智能体对于所有的S?S,a?A
以任意的初始值Q(S,a)开始.在每个时间t,算法
模块提供了当前的奖赏和状态,它返回一个放大的
信号来显示应该建立怎样的动作.换句话说,队员
动作的选择是建立在奖赏r,的基础上.接着智能
体在以下方程式的基础上更新它的Q值:
Q学习主要采用查询功能代替Q函数.但由
于当数量较大时Q值需要很大的存储空间,因此采
用神经网络来完成Q学习.神经网络的输出对应
于每个动作的Q值,输入与环境的状态相对应.学
习系统自动更新在所接受的增强信号基础上所建立
的权重矩阵.信号显示队员的当前动作是否适合,
以及信息适合性再现的程度.其步骤如下:
Q一动作值函数的初始值集合(初始化为0)
Repeat
(1)得到在时刻t时环境状态s;
(2)计算每个动作的Q值;
(3)判断当前状态与经验提供的状态S是否匹配?
匹配转(4),否则转(5);
(4)选择状态s确定的合法动作ai;
(5)对应Q值以Boltzman分布P(n,S)=
0(,a)/丁
?.『7于确定的概率随机选择一个动作ai,其中丁为
一I,EAe
温度系数,丁越大,随机性越强,机器人碰没碰到障碍物为
强化信号,如果碰到障碍物,则Q值减去一个单位值,否则
Q值增加一个单位值;
(6)执行动作n得到新的环境状态S+1及增强的信号
强化信号按下式予以定义:
(4)
Q(+1,乜)=rt+),啦{Q(+1,乜)};(5)
(8)调整神经网络的权值?Q
?Q=rt+),哆(+1,乜)一胜出者,
因此把积分作为判定的
.表中的数据分别表示
了参赛的次数及平均得分,实验数据见表3所示.
表3实验数据
通过实验数据显示Q学习可用来进行动作选
择,实现了足球机器人的智能行为学习.
参考文献
[1]史忠植.高级人工智能[M].北京:科学出版社,1998.
[2]张汝波,等.强化学习理论,算法及应用[J].控制理论与应
用,2000,10.
[3]朴松昙,等.一种动态环境下移动机器人的轨迹规划方法
[j].机器人,2003,(1).
(责任编辑:夏
林)
篇
惮