为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于微博情绪信息的股票市场预测

2017-11-27 18页 doc 48KB 41阅读

用户头像

is_212655

暂无简介

举报
基于微博情绪信息的股票市场预测基于微博情绪信息的股票市场预测 基于微博情绪信息的股票市场预测 管理3二手呈学.tll Journal of lndustrial Engineering/Engineering Management 2015年第1期Vol. 29, No.l 基于微博情绪信息的股票市场预测?黄润鹏左文明2毕凌燕2(1.香港科技大学工学院,香港G030;2 华南理工大学经济与贸易学院,广东广州510006) 摘要:行为金融理论的研究表明,股票投资者在进行投资决策时,容易受到自身的因素如情绪与心理因素的影响。以行为金融理论为依据,作出基本...
基于微博情绪信息的股票市场预测
基于微博情绪信息的股票市场预测 基于微博情绪信息的股票市场预测 管理3二手呈学.tll Journal of lndustrial Engineering/Engineering Management 2015年第1期Vol. 29, No.l 基于微博情绪信息的股票市场预测?黄润鹏左文明2毕凌燕2(1.香港科技大学工学院,香港G030;2 华南理工大学经济与贸易学院,广东广州510006) 摘要:行为金融理论的研究表明,股票投资者在进行投资决策时,容易受到自身的因素如情绪与心理因素的影响。以行为金融理论为依据,作出基本假设:微博情绪信息反映的社会整体情绪倾向能够影响并预测股票市场整体价格走势的变化O实证过程包括抓取新浪微博数据并进行预处理,生成情绪倾向时间序列,通过格兰杰因果关系检验上证指数时间序列与情绪倾向时间序列间的相关关系,建立支持向量机模型预测股票市场价格的变化来验证假设的正确性。实验结果显示加入微博情绪信息的预测模型能够获得更高的准确率,进而证明了本文所作假设的正确性o关键词:行为金融理论;微博;情感 计算;股价预测;支持向量机中图分类号:F830.9 文献标识码:A文章编号:1004-609><#990099'>62(2015)01-0047啕07定及其变动具有重大影响[IOJ。引言微博客(简称微博)是?种用户可以随意更新简短文本现代金融理论的基石是资本资产定价模型和有效市场假说[IJ。有效市场假说认为,在强有效市场中,资产交易价(通常少于140字)并公开发布的新型博客形式。近年来,微格总是反映了所有的可得资讯[2]。股票市场将立即反应新博的流行提供了-种新的方便快捷的方式来获得消费者的情绪变化。根据新浪发布的统计数据,截至2011年9月30的资讯,调整至新的价位。因此价格变化是取决于新资讯,股价呈随机走势。虽然新资讯是不可预测的,但最近的研究日,其微博用户数达2.5亿,旦日活跃用户数约为2500万。新浪微博用户平均每天发布的博文数高达8600万条。基于发现,新资讯的;蛛丝马迹;却可以从海量的网络媒体内容中挖掘出来。如DanielGruhl等[3]研究发现,在线内容(如博客庞大的数据量,微博信息可以比较准确和实时地反映出社会和网页)能够预测书籍的销售量oGilad Mishne等问]研究发整体的心理和行为的变化O现,提及某部电影的博客文章数量及情绪倾向 与该电影实际根据以上研究背景,本文以行为金融理论为依据,作出票房的销售存在相关关系。SitaramAsur等[5J从海量的假设,即微博情绪信息所反映出来的社会整体情绪倾向能够Twitter内容中获取人们的情绪信息并预测到电影的票房O影响并预测股票市场价格的变化。另一方面,虽然股票市场价格变化取决于新资讯,但社会整体的情绪状态同样也能影响价格[6J。有效市场假说认1 理论基础为,市场上许多投资者是理性的且目标是追求最大利润[2J。传统的金融理论根据投资者能在证券市场上获得的信但是,从荷兰的郁金香泡沫到美国的互联网泡沫,这些事实息的数量,将证券市场划分为弱有效市场、半强有效市场和却表明,投资者并不总是理性的。投资者的非理性导致股票强有效市场[2J行为金融理论则打破这一传统市场的划分,市场的表现并不总是那样理性,并往往给企业价值错误定将投资者的心理因素加入到市场分析中,建立基于人的心理位,典型的研究有LaPorta在成长性股票发现的异常现因素的分析模型Q象[7J。行为金融理论的研究发现,在不确定条件下的决策过研究投资者情绪对其投资决策时的影响主要以心理学程中投资者并不是完全理性的,会受到诸如过度自信、代表的研究为基础[叫,研究天气环境、生物节律以及社会因素对性、可得性、框定依赖、锚定和调整、损失规避等信念影响,出股价的影响,分析人们会由于短暂的因素的变化,如天气所现系统性的认知偏差[8J。相关研究发现技资者情绪与股票引起的情绪波动影响决策,在涉及到风险与不确定因素的复收益之间是相互影响、相互制约的[9J。因此,市场上股票的杂性决定如投资决策时尤其如此。投资者在进行投资决策价格并不只是由股票内在价值决定,还在很大程度上受到投过程中,会受到诸如知识水平、生活阅历和文化水平等限制,资主体的影响,即投资者的心理因素与行为对股票的价格决从而做出有偏差的判断。这些判断偏差可分为三类:简收稿日期2012-12-08修回日期2013-04-25基金项目:国家自然科学基金资助项目(71101055);国家社会科学基金资助项目(09CJYOI3);教育部人文社会科学青年基金资助项目( 11 YJC63004 ) ;教育部人文社会科学研 究资助项目(08JC7><790038);中央高校基本科研业务费重点资助项日(2009SZ0029) 作者简介:黄润鹏(1990一),男,广东省东莞市人,香港科技大学工学院硕士生,研究方向:数据挖掘、软件。? 特别感谢孙坚强博士对本文提出的宝贵建议和所作的修改,广东商学院肖典英老师对英文摘要的翻译也提 出了修改建议,在此表示感谢。-47一 黄润鹏等:基于微博情绪信息的股票市场预测化法则、自我欺骗以及情绪基础判断[12J 投资者协会的125个成员于1987年至1992年进行每周?次经验简化法则是指人们在接受信息时,由于大脑的接受的跟踪性的抽样调查后发现,个体投资者的情绪,即投资者能力有限,为了节省分析成本,选择潜意识地忽略掉部分信的乐观、悲观或中性情绪,与道琼斯工业平均指数的总体表息、听信小道消息以及根据自身的经验进行各种决策。自我现具有显著的相关关系。又如Kamstra等[叫在2000年的研欺骗是指人们相信某事会发生时,通常会高估预测的概率究发现,在实行夏令时制的国家,在夏令时与冬令时制互相值。而当相信某事不会发生时,则会低估事件发生的概率。转换调整后的第?个星期一的收益,与其他时期的周一或周情绪基础判断则是指人们在决策过程中,因情绪的变化而影末的收益相比要少得多O这是因为时间的调整对投资者惯响决策。个人情绪会受到群体情绪的感染,从而不能客观地有的睡眠模式造成了影响,扰乱了他们的生物钟,引起不安对股市行情进行分析。投资者容易出现盲目跟风,牛市时越情绪,因而影响股市收益。炒越高,熊市低迷时又过于恐慌。由此可见投资者情绪会影响其决策从而影响股票市场。2 研究方法1对此,一些学者对此作了实证研究。DeBondt[13对美国个人本文的具体研究如图1所示o微博情绪信息p值图1研究方禀研究步骤具体描述如下:720,153条,微博的发表时间跨度为2009年8月14日至2012年2月28日Ostep 1 使用新浪微博提供给开发者应用的API(Application Program Interface) ,抓取海量的微博数据O选取2011年6月1日至2011年12月31日的微博数据step 2 以天为单位归类微博数据,并清洗不能表现情绪和相应日期的上证指数收盘价进行实验,该时间段内未进行的垃圾数据,如转发的微博或只包含链接地址的微博等O预处理的微博数据量约为15,000条。step 3 运用语义分析工具,分析微博中包含的情感信数据的预处理主要是按天进行归类和清洗掉没有情感息。本文将从两个层面来分析和量化情绪信息:第一个层面倾向的微博数据o因为每条微博数据都有其发表时间的字可以将情绪分为2个维度一一一积极情绪倾向和消极情绪倾段,因此可容易地将微博按照天进行归类。以表1的不同类向;第二个层面将积极情绪和消极情绪继续 细分,可分为一型微搏内容为例阐述如何进行微博数据清洗。袭1微博内容类型般、中度和高度积极情绪倾向以及一般、中度和高度消极情绪倾向。类型描述step 4 通过格兰杰因果关系检验,论述和验证社会情绪转发微博变化与股票市场变化确实存在相关关系。2 分享图片step 5 使用非线性模型进行股票市场走势预测的实证我是;王小新喜欢王可新我已经将名字改为;小新和3 小新新请继续关注我哦~分析,得到模型的准确率,并与其他的预测方法作比较,分析4 变形计120216//t.cn/z02Ti7V(分享自@优酷网)模型的优势和劣势,并提出改善方案。本来就未建成吧……下年应该就差不多了//@潮东莞:5 坑爹啊!!!3 实证研究顶啊,广深高速无敌塞车,每隔50米?单车祸,烦躁6 3.1 微博数据获取及预处理[哼][抓狂]本文实验的微博数据全部来源于新浪微博。新浪微博类型1:当用户转发微博时,新浪微博系统自动为其添加提供平台开放接口(OpenAPI)供开发者开发微博应用,同时;转发微博;作为默认的发布内容。因此,类型1不含有直接对微博内容的保护十分严格,设置了很多限制O因此,本实的情绪倾向,这种类型的微博需要被清洗掉。验的抓取程序运行了数十天,一共抓取到微博数量为28,类型2.当用户转发上传一张图片时,新浪微博系统自动-48 Vol. 29, No.l 管理工程学报2015年第1期为其添加;分享图片;作为默认的发布内容。因此,类型2不31日每天的收盘价产生上证指数时间序列[16J。为了能够使含有直接的情绪倾向,这种类型的微博需要被清洗掉。情绪倾向时间序列与上证指数时间序列进行比较,同时,每类型3:当用户修改其微博昵称时,新浪微博系统自动产个类别的情绪倾向数据之间也能进行比较,需要对实验数据生发布内容为;我是;xxx;,我已经将名字改为;YYY;,请进行z-score化处理。转化函数为:继续关注我哦;的微博,用以通知其微博好友。因此,类型3/gt) l 、、属于系统自动发布的微搏,不包含用户的情绪倾向,这种类其中,X为变量X的均值,σ为变量X的标准差O经过处型的微博需要被清洗掉。理的数据符合均值为O标准差为1的标准正态分布。标准类型4:当用户分享站外内容时,新浪微博系统自动发布化处理后的上证指数时间序列和情绪倾向时间序列如图3内容为;站外网页标+站外网页超链接;的微博。因此,类所示O可以明显看出,各个情绪时间序列存在某种相关关型3不包含用户直接的情绪倾向,这种类 型的微博需要被清系,同时图像直观表明上证指数与情绪时间序列也存在某种洗掉。相关关系。当然,这些相关关系需要经过严格的检验。类型5:当用户A转发用户B转发的微博时,新浪微搏系统会为用户A发布内容为;用户A的评论//@用户B:用户B的评论;的微博。其中,用户A和用户B的评论用;//;上阵指数分开。因此,本实验的预处理程序会将此微博自;//;分开,分割成;用户A的评论;和;//@用户B:用户B的评论;2个字符串。前一个字符串是本实验关心的用户情绪倾向微博,因此将作为实验数据储存,而后一个字符串将被舍弃。类型6:此类型的微博含有用户直接的情绪倾向信息,因此是本实验关心的微博数据,此类型的微博将作为实验数据。3.2 时间序列生成本实验利用ROSTContent Mining(简称ROSTCM) [叫的情感分析模块对每天的微博进行情绪倾向分析。ROST内容挖掘系统对中文支持力度较好,而且功能丰富,为基于中文的数据挖掘、知识发现提供了极大的技术支持。ROSTCM 对每条微博进行打分,0分为中性情绪,大于0分为积极情绪倾向,小于0分则为消极情绪倾向。本文实验利用ROSTCM 7/22 8/12 9/2 9/26 10/24 11114 12/5 12/26 分析情绪的统计结果如图2所示。分析结果:图3各个时间序列的z-score积极情绪3378条53.21% 3.3 格兰杰因果关系检验小性情绪1S33~曲24.15% 消极情绪1437;'是22.64% 格兰杰因果关系检验是一种检验一组时间序列是否可11;中,积极情绪分段统计结果如r:被用来预测另一组时间序列的假设检定[17J。如果时间序列一般ω-10): 1721条27.11% 中&(10-20) : 865条13.63%X被视作时间序列Y的格兰杰原因,那么对X的滞后值(也高度(20以1:.)I <792条12.48% 包括Y的滞后值)进行t检验以及F检验后可证实X值提供其中,消极情绪分段统if结果如下z一般(.10一创888条13.99% 了在统计上显著的关于Y的未来值的信息。中度(.20-.10)I 330条5.20% 高度(.20以下103条1.<#990099'>62% 格兰杰因果检验的前提是时间序列的平稳性,因此需要首先对本实验的时间序列进行单位根检验。平稳时间序列回22011年7月1日微博情绪倾向统计结果由图2可知,ROSTCM把情绪倾向划分为7个级别:一是指时间序列的所有统计性质都不会随着时间的推移而发般积极情绪(记为PA),中度积极情绪(记为PB),高度积极生变化,亦即其数学期望值与方差保持不变。而对时间序列情绪(记为PC),中性情绪,一般消极情绪(记为NA),中度消单位根的检验就是对时间序列平稳性的检验。最常用的 方极情绪(记为NB),高度消极情绪(记为NC)σ本文只验证法是增广的迪基一福勒检验(ADF检验)。本实验的数据将积极情绪和消极情绪对股票市场走势的影响,因此不使用中在EViews下检验单位根,原假设是该时间序列有单位根。性情绪作为实验数据。表2是单位根的检验结果。基于ROSTCM的分析统计数据,可得到7个情绪倾向可以看出,各个情绪倾向时间序列的p值均小于1%,因时间序列,分别为PN(积极情绪倾向的微博数与消极情绪倾此在99%的置信水平下拒绝原假设,认为情绪时间序列都是向的微博数的比值),PA,PB,PC,NA,NB,NC。平稳的。同时,检验结果表明,上证指数时间序列(SZ)有单同时,选取上证指数于2011年6月1日至2011年12月位根,因此需要进一步差分和检验。当上证指数时间序列49一 黄润鹏等:基于微博情绪信息的股票市场预测表2时间序列单位根检验结果上证指数SZPN PA PB PC NA NB NC t统计量O. 8660 -6.3080 -3.6755 -3.9019 7.7009 -6.7301 -6.8837 -4.8434 P值O. <7960 0.0000事0.0056 0.0027 0.0000事。.0000 。.0000事。.0000 ( 5Z)一阶差分后,单位根检验的结果为t= -11. 6066 , P = 一阶差分,差分后的序列记作D5Z、DPN、DPA、DPB、DPC、0.0000。此时,差分后的上证指数时间序列(5Z)是平稳的,DNA 、DNB,DNC,一阶差分的公式如下:即上证指数是一阶单整的。D(X) = X, -X’_I ,X = SZ,PN,PA,PB,PC,NA,NB,NC 因为上证指数和其他情绪倾向时间序列不是同阶单整,(2) 因此不能做协整检验和后续的格兰杰因果关系检验。对于再对差分后的序列进行单位根检验,结果如表3所示。这种情况,本实验进行如F的处理:差分后序列的P值均为0.0000,表示各个序列已经是平稳将5Z、PN、PA、PB、PC、NA、NB,NC共8个时间序列进行序列。表3差分时间序列的单位根检验结果DSZ DPN DPA DPB DPC DNA DNB DNC p值0.0000事0.0000事0.0000。.0000 0.0000 0.0000 0.0000 0.0000 然后对差分后的序列进行格兰杰因果关系检验。值DSZ 3 得注意的是,差分后的序列的格兰杰检验内容是,情绪倾-1 向的变化(该情绪倾向比例的增加或减少)能否预测上证指数未来变化(涨或跌)。而原始序列的格兰杰检验内容-3 是,情绪倾向比例确定的一个值,能否预测上证指数未来某天的收盘价oz-score处理后的上证指数差分序列和情绪倾向差分序列如图 4所示。图像清晰表明差分后的上证指数时间序列与差分后的各情绪倾向时间序列存在某气吗d句‘种相关关系Od1-4格兰杰原假设为,在滞后N期的情况下,情绪序列的变化不能预测上证指数收盘价的变化O格兰杰因果关系检验1 的结果如表4所示。当滞后天数为4天时,高度积极情绪倾-3 向时间序列的变化(DPC)能预测上证指数收盘价的变化( D5Z)的原假设的p值为0.03098,小于5%。因此,在959毛的置信水平下拒绝原假设,认为高度积极情绪倾向的变化( DPC)与上证指数收盘价的变化(DSZ),在统计上表明存在7/25 8/15 9/5 9/27 10125 11/15 12/6 12/27 因果关系。图4差分后的各个时间序列的z-score表4格兰杰因果关系检验结果滞后天数DPN DPA 。PBDPC DNA DNB DNC 1天0.95316 0.74663 0.41184 0.40382 0.76691 O. 31756 。.672882天0.71060 O. 7<7907 0.54312 0.05022 0.95691 0.49505 0.54440 3天。.494710.91682 O. 75247 。.10696 0.90219 。.388220.15915 4天O. 34686 。.37251O. 82482 0.03098融0.37251 O. 10833 O. 20283 5天0.26837 0.08072 0.91613 0.07107 0.31165 O. 18876 0.28036 从经济含义方面分析。除去公众假期和双休日,证券市理性地进行投资,即所谓的跟风炒作、追高杀跌。这也从一场)周的实际交易天数约为5天,而格兰杰检验的结果表个侧面反映出我国股票市场的不成熟,我国股票市场信息的 明,4天前情绪序列的变化可以预测上证指数收盘价的变化。不对称性造成股票投资者依赖于自己的情绪而不是股票市此检验结果可理解为,受生活习惯、职业等因素的影响,人们场的有效信息进行投资。因此证券市场的变化能在4个交生活作息总是以一个星期为周期重复,即人们在一周的同?易日前被预测得到。时间,总是习惯完成同样的事情,同时有着相同的情绪倾向3.4 SVM模型建立与预测或心理感受。而且高度积极情绪倾向的人群可认为不能够格兰杰因果关系检验本质上仍是线性模型的回归预测。?50一 Vol. 29, No. 1 管理工程学报2015年第1期但是股票市场的价格变化一般被认为是非线性结构[口.18]因表6SVM模型预测准确率此,除了格兰杰因果关系检验,本实验还通过建立非线性模5实验组50 DPC 型来对上证指数收盘价时间序列进行预测。准确率54.56% 68. 18%喻本实验将采用SVM(support vector machine,支持向量预测的准确率表明,加入情绪时间序列DPC的实验组机)模型 对上证指数时间序列进行预测QSVM建立在统计的准确率比只使用股票市场技术指标的对照组高13.<#990099'>629串。学习理论和结构风险最小化理论的基础之上,模型的泛化能可见,情绪时间序列的确能在一定程度上提高股票市场价格力较强QSVM日前已广泛运用于人工智能以及模式识别的变动预测的准确率,说明社会整体情绪作为投资者情绪的一分类器设计中[叫。个衡量指标,能够影响并预测到股票市场整体价格的变化。本实验采用2011年7月1日至2011年12月30日共125个交易日上证指数数据作为样本。综合考虑数据各方4 结论面的因素,将7月1日至11月30日共103个交易日数据作股票市场的预测和决策研究是涉及面非常广泛的应用为训练样本,12月1日至12月30日共22个交易日数据作型研究课题。将社会整体情绪倾向运用到股票的预测研究为测试样本。并将训练样本和测试样本中,收盘价比上??是?个不错的选择。同时,有利于进一步验证行为金融理论个交易日收盘价高的样本记为;+ 1; ,收盘价比上一个交的合理性,也为决策者有效管理市场提供重要依据O易日收盘价低的样本记为;0;,收盘价没有变化的样本暂本文以行为金融理论为理论依据,假设微博情绪信息反不作考虑O映出来的社会整体情绪倾向能够影响并预测股票市场价格为了衡量高度积极情绪倾向时间序列的变化(DPC)对走势的变化,实证检验验证了本假设的正确性。上证指数收盘价的变化(DSZ)的预测效果,本文设置了一组本文存在的不足和研究展望:对照实验。对照组只选用股票分析中常用的技术指标,选用I 、使用ROSTCM内容分析软件对微博进行情绪倾向分上证指数前4天的收盘价,记为5Z._,5Z._,5Z'_3和5Z._4, 12 析。虽然经过大量的实验和研究的验证,证明了ROSTCM 共4个特征,建立对照组训练样本集合和预测样本集合。实情绪分析模块的有效性。但是,文本分类技术仍然是一个热验组除了选用上证指数前4天的收盘价作为特征外,还加入门的研究课题,还有很大的提高空间[21.22J。同时,人的情绪一个滞后4期的高度积极情绪倾向一阶差分值(DPC)组成不仅划分为积极和消极,可以划分成更多的维度,如快乐、紧特征向量O这是因为格兰杰因果关系检验显示,滞后4期的张、冷静、确定等问。更多维度能更精细地确定社会的何种DPC在统计上对上证指数有预测效果。下面是各个实验组情绪影响股票市场价格的变化Q的特征向量,5。为对照组:2、相较使用传统股票分析预测常用的技术指标而言,加50 I 5Z._,5Z,斗,5Z'_3,5Z 叫|1 入了高度积极情绪倾向时间序列的SVM模型在股票预测上5DPC 15Z,斗, 5Z'_2,5Z._,5Z’_4 ,DPC’_41 的效果要好一些,但准确率仅有68.18%。 这个准确率仍无3 由于采集的各数据单位不一致,因而须对数据进行归一法满 足实际的股票投资决策的要求。为进一步提高预测的化处理。采用的归一化方法 为线性函数转换,公式如下:准确率,可以从几个方面着手,包括:寻找更合适的 特征向x-x 量;SVM模型的优化或者选择更优的预测模型。=一一一-,,-(3) X.. -x m参考文献j本实验的环境采用MATLAB开发环境与LibSVM[20。LibSVM使用 方便,已经内置了许多默认的参数来构造SVM[ 1 J 刘海龙,郑立辉,吴冲锋- 现代金融理论的进展综述[1].系统工程理论与实践,2001,21(1 ) : 14 -20. 模 型。但为了提高股票预测模型的准确率,本实验使用表5[ 2 J Fama EF. Efficient capital markets: a review of theory and 的参数构建SVM模型Oempirical work[ J]. The Journal of Finance, 1970, 25 (2) : 383 表5SVM模型主要参 数-417. 参数值[ 3 J Gruhl D, Guha R, Kumar R, et al. The predictive power of SVM类型8><#004699'>c-svc online chatter [ <#004699'>C J. The eleventh ACM SIGKDD international 核函数径向基核雨数(RBF)conference on Knowledge 87. 核参数l/k [ 4 J Mishne G, Glance discovery in data mining, 2005: 78 - N. Predicting movie sales from blogger 惩罚参数<#004699'>C10 sentiment [ <#004699'>C J. AAAI 2?006 Spring Sympos目1川1采用上述参数在MATLAB 中建立SVM模型,并使用训Ap proaches 阳toAnal忖ySl吨n1咯gWeblogs (AAAI-CAA W)λ,200俑6:155 -练样本集合(2011年7月1日至11月30日), 对模型进行训158. 练O模型训练完成后,用来预测测试样本集合(2011年12 月[ 5 J Asur 5, Huberman BH. Predicting the future with social media 1日至口月31日),得到预测准确率,即上证指数收盘价涨[<#004699'>C J. The 2010 IEEE/WIC/ ACM International Conference on 跌的预测l准确率,结果 如表6所示。Web Intelligence and Intelligent Agent Technology, 2010: 492 --51一 黄润鹏等:基于微博情绪信息的股票市场预测499. the daylight-savings anomaly [ J J. American Economic Review, [ 6 J Bollen J, Mao H, Zeng X. Twitter mood predicts the stock market 2000, 90 (4) : 1005 -1011 [JJ. Jοurnal of Computer Science, 2010, 2(1): 1 -8. [15 J Shen Y. ROST content mini吨system:software for content [ 7 J 赵蒲,孙爱英.产业竞争、非理性 行为、公司治理与最优资本结mining and analysis. Wuhan University, Hubei, China. 2008 构一一现代资本结构理论发展趋势及理论前沿综述[1].经[16J 上 海证券交易所上海证券交易所统计年鉴2011卷[MJ.上济研究,2003,(6) :81 向的+96.海:上海人民出版社,2011. [ 8 J Shefrin H. Beyond Greed and Fear [ M J. New York: Oxford [ 17 J Granger CWJ. Investigating causal relations by econometric Un iversity Press, 2002. models and cross-spectral methods [ 1]. Econometrica, 1969, 37 [ 9 J 池丽旭,张广胜,庄新田,宋大雷.投资 者情绪指标与股票市(3): 424 -438. 场一一基于扩展卡尔曼滤波方法的研究[1] 管理工程学报[18J史永东,赵永刚.证券市场非线性动力学模型及其模拟分析 2012 , ( 3) : 122 -128 + 165. [ J].财经问题研究,2007,(9) :46 -54 [10 J 周战强行为金融:理论与应用[MJ.北京:清华大学出版社[19J 肖文兵,费奇基 于支持向量机的个人信用评估模型及最优参2004. 数选择研究,系统工程理论 <79. [口11川]高清辉.从行为金融角度看气候环境对与实践,2006,(10):73 - 我国股市的影响[川1].臼20町JCαωh旧ar吨CC,Lin 口CJ.LI盹BSVM:A 恤 11池brar叮y,f0盯阳r阳suppor吐tv刊ec时t旧or 中国经济问题,2006, (2) :46 -51. machines [ J J. ACM Transactions on lntelligent Systems and [12J 高清辉论投资者情绪对股市的影响[J].经济纵横,2005,Technology, 2011 , 2 (3) : 1 -27. (4):34-36+49. [21J 苏金树,张博锋,徐昕基于机器学习的文 本分类技术研究进[ 13 J De Bondt WPM. Betting on trends: intuitive forecasts of financial 展[JJ软件学报,2006, ( 9) : 1848 -1859 risk and return [ J]. Intemational Joumal of Forecasting, 1993, 9 [22 J 庞观松, 蒋盛益.文本自动分类技术研究综述[JJ情报理论(3): 355 -371. 与实践,2012, (2):123句128.[14 J Kamstra MJ, Kramer LA, Levi MD. Losing sleep at the market: Predicting the Stock岛farket ased on Microblog岛宜。od122 HUANG Run-peng, ZUO Wen-ming, BI Ling-yan(1. School of Engineering, Hong Kong University of Science and Technology, Hongkong G030, China; 2. School of Economics and Commerce, South China University of Technology, Guangzhou 510006, China) Abstract: Studies on stock price forecasting and investment decisions cover a very wide range of issues. One of them is the information efficiency of the market where the stocks are traded. The strong efficient market hypothesis (EMH) asserts that traded stock price ref1ects not only the economic value of stocks but also behavioral reaction of investors to the stock. Findings on behavioral finance theories show that investors are susceptible to emotional and psychological factors. The information is reported by not only some traditional media, such as newspapers, periodicals, radio, and television, but also some modern media, such as microblog. Hence, we propose a hypothesis that emotion tendency information shared on microblogs is helpful in forecasting stock price changes. Firstly, we col1ect massive microblog data using open API (Application Program Interface) provided by Sina Microblog Platform. A total of 28, 720, 153 microblogs are col1ected in the time period from August 14, 2009 to February 28, 2012. Secondly, we classify microblog data according to its published date. We eliminate junk blogs, such as forwarded microblogs, microblogs with only link address in context, and other blogs that cannot ref1ect any emotions of the publisher. Thirdly, we analyze microblog emotion information using the semantic analysis tool ROST, and generate daily emotion tendency time series. We also collect the time series of Shanghai Composite Index in the same time period for comparison. The time series are standardized into Z-scores so that they can be compared with each other. Shanghai Composite Index shows correlation with some emotion time series. Fourthly, we use the Granger causality test to examine the correlation between differentiated Shanghai Composite Index and differentiated emotion tendency time series. Empirical evidence shows that there is a significant positive correlation between changes in Shanghai Composite Index and changes in the high passion tendency (represented as DPC in this paper) series. Final1y, we establish a nonlinear predicting model of the stock index by using support vector machine. Samples are collected from Shanghai Composite lndex. Data in the trading days between Jnly 1 and Nov 30 in 2011 are samples and those between December 1 and December 30 in 2011 are testing samples. Closing prices of Shanghai Composite lndex in the lag 4 days are used to compose reference (下转第215页)-52 Vol. 29, No.l 管理工程学报2015年第1期financial market completeness because they can expand the range of choices available to investors. In addition, these researchers think that options trading could reduce the volatility of the underlying stocks. In contrast, some other researchers think that options could destabilize the underlying market and lead to an increase stock price volatility. In addition to these two viewpoints, many other researchers claim that the introduction of options cannot directly affect the underlying market. This paper tries based computational to address the question from the perspective of agent- finance. The model used in this paper consists of two parts: stock trade module, and stock option trade module. A complete stock option market can be constructed with these two modules. The first module is based on SFI-ASM and has been improved for research purpose. The second module is new option module, consisting of European call option and European put option. The module allows agents to trade simultaneously with each other A real mechanism of option trading is also introduced and the option prices are decided by supply-demand balance of option market. Heterogeneous agents are introduced in order to better understand the real stock market. In the stock trade module, stock traders are divided into technical trader, value trader, and random trader according to learning speed. In contrast, stock traders are divided into risk aversion trader and risk preference trader according to the extent of risk preference. In the option trade module, the option traders are divided into three types of option trading strategy: random option trader, speculation option trader, and hedge option trader. Random option trader represents the noise trader in the real market. A noise trader makes irrational and erratic decisions to buy, sell, or hold options. Hedge option traders are agents who want to cover stock options through holding option contracts. Speculation option traders are entirely the opposite of hedge option trader. These agents hold option contracts for speculative trades so that they can earn additional profit. Nevertheless, they will also face more serious risks when stock price fluctuates. Compared with hedge option trader, the speculation option trader is relatively irrational. The results show that in the stock market the introduction of heterogeneous agents can ensure that the stock market meets the origina 中文编辑:杜健;英文编辑CharlieC. Chen (上接第52页)1h feature vectors. In addition, change of high passion tendency in the lag 4day is added to form testing vectors. Empirical evidence shows that the predicting model with emotion information is more accurate. To conclude, the empirical evidence confirms our proposed hypotheses that the emotion information reflected in the microblog words improves accuracy in predicting changes in stock price. Key words: behavioral finance theory; microblog; affective computing; stock price prediction; support vector machine 申文编辅:杜健;英文编辑:Charlie <#004699'>C. Chen -215一
/
本文档为【基于微博情绪信息的股票市场预测】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索