为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

国内外主要互联网公司大数据布局与应用比较研究

2013-09-04 5页 pdf 1MB 24阅读

用户头像

is_310843

暂无简介

举报
国内外主要互联网公司大数据布局与应用比较研究 44 中国传媒科技 /2012/9 Uniting 修炼 45 /9/2012 SCIENCE & TECHNOLOGY FOR CHINA'S MASS MEDIA 因为Mac Pro拥有一批铁杆追随者。 当智能移动设备来袭时,特别是智能 手机和平板电脑所用处理器,基于 ARM架构的高通、三星和德州仪器 在手机处理器上遥遥领先,Apple凭 借在iPhone和iPad的神话也推出自己 的基于ARM架构的处理器。Intel和 AMD不甘ARM一家独大也积极发展 智能移动设备处理器。 在智能移动设备上,...
国内外主要互联网公司大数据布局与应用比较研究
44 中国传媒科技 /2012/9 Uniting 修炼 45 /9/2012 SCIENCE & TECHNOLOGY FOR CHINA'S MASS MEDIA 因为Mac Pro拥有一批铁杆追随者。 当智能移动设备来袭时,特别是智能 手机和平板电脑所用处理器,基于 ARM架构的高通、三星和德州仪器 在手机处理器上遥遥领先,Apple凭 借在iPhone和iPad的神话也推出自己 的基于ARM架构的处理器。Intel和 AMD不甘ARM一家独大也积极发展 智能移动设备处理器。 在智能移动设备上,Apple无疑 占据着平板电脑王者的位置,三星的 平板紧追其后。手机上三星,LG, Apple,HTC基于Google Android 平台的联盟领先Apple iPhone市场 占有率,但是近期Apple在和三星专 利技术交锋中大胜,预计未来市场份 额还会大幅上升,这将对三星等使用 Android平台的手机产生巨大冲击。 而在移动计算操作系统平台 上,移动电脑还是Microsoft 操作系 统的天下,但似乎越来越多的人开 始选择Apple的Mac Laptop。在手 机和平板电脑上,Google Android 开放平台占据着半壁江山,而Apple iOs凭借终端市场位居第二,PC操 作系统霸主Microsoft如梦方醒,凭 Windows Phone 8开始发力,三星 Bada和BlackBerry OS也励精图治, 而曾经的辉煌Nokia则苦守Symbian Anana。 移动计算平台变成了IT行业巨 头角力的战场,谁胜谁负还很难预 料。智能移动计算设备行业乱象的背 后,带来了更快、更强的平台,带给 人们更多的选择,也促进了智能移动 计算设备的大发展。 移动计算的未来 手机设计之初仅仅是为了人们打 电话,但是当摄像头、陀螺仪、水平 仪、GPS,收音机,高保真的音频播 放,强大的图形处理功能等成为手机 的标配时,谁还会觉得iPhone在Siri 上的尝试是多余的呢? 我们来看看移动智能设备的即将 实现的功能和未来热点研究方向: ★ 对LTE网络的支持。国内目 前正在推进TD-LTE、FDD LTE两 大4G标准; ★ 对HTML 5标准的支持。 HTML 5因移动多媒体应用而生,其 标准正在紧锣密鼓的准备出台,但目 前还存在一些问,HTML 5的成熟 还需假以时日; ★ 移动云计算。移动云计算非 常适合物联网方面的应用。将来的移 动设备会提供更加强大的云计算平台 以及更丰富的云计算应用; ★ 更多的电子商务应用。已经 有很多手机支付的成功案例,移动智 能设备会越来越多的应用到需要身份 识别和安全认证的场合; ★ 对IPV6的支持。移动设备全 面拥抱计算机网络和互联网; ★ 更高的安全性。目前移动设 备的安全形势不容乐观,许多人还没 有认识到这一点,未来的移动计算设 备需要提供令人放心的安全使用环 境; ★ 更 人 性 化 的 人 机 交 互 (HCI)。苹果的成功告诉大家,用 户体验很重要; ★ 移动智能设备更“智能”。 人工智能有望在移动设备中大展身 手; ★ 应用的多少决定客户的选 择。如果在平台层面决不出胜负的 话,那么移动应用的丰富程度则决定 了用户的多少。对个人用户而言,娱 乐应用远比办公应用重要; ★ 更多接入方式。支持卫星、 红外线等通信方式,目标是在任何场 合下都能满足人们信息交互的需要, 哪怕是你到南极看企鹅; ★ 更多传感元器件的集成。用 手机遥控家里的电视机,调整空调温 度,启动汽车,iPhone正在做这些事 情。人们将来要问,手机还有什么不 能做? 移动计算是新兴的、蓬勃发展的 信息技术,移动计算的普及将极大促 进相关信息技术的发展,而技术的发 展又促进移动计算的普及。虽然移动 计算还存在诸如安全、潜在的健康等 亟待解决的问题,但移动计算已经对 我们的生活产生巨大的影响,它照亮 了人类活动的各个角落,让我们一起 憧憬移动计算美好的未来。■ (作者单位:新华通讯社技术 局) 大数据的由来 2001年,高德纳(Gartner)公 司的一份研究首次出现“大数据 (Big Data)”概念的提法。时至今 日,虽然对“大数据”一词的定义说 法不一,但越来越多的研究机构和网 络媒体开始关注它。大数据正成为继 云计算(Cloud Computing)之后 新的热词。同云计算一样,大数据虽 然也看不见摸不到,却与今日的信息 技术发展如影随形,并潜行于当前的 信息生产、加工、交换过程之中,我 们已经享受到的某些信息服务,如在 社交网站看到的是自己想关注甚至是 感兴趣的广告而看不到不想关注的广 告,这其实是大数据技术的功劳。 1. 发展背景 后Web2.0时代,移动互联网的 带宽不断提高与智能设备销售量不断 上升,互联网业迎来了“云计算”和 “大数据”。世界经济论坛一份有关 大数据的研究报告称,每天全球几十 亿人使用计算机、GPS设备、电话和 医疗设备,产生海量的数据信息。这 些用户大部分来自发展中国家,他们 的需求和习惯尚未被真正理解,如 果能够借助大数据相关技术和挖 掘数据背后的信息,将有助于认识需 求、提供预测和防范危机。另有评述 说,美国的汽车保有量是中国三倍, 而其车祸死亡人数仅为中国的一半, 这得益于信息社会的数据革命之功。 毫无疑问,现在我们比历史上 任何时候拥有的数据信息都要多。这 些数据来源各式各样:收集气候变化 的传感器,社交媒体上的消息,数字 照片和视频,交易记录,移动电话的 GPS信号等等。中国移动研究院在一 份简报中称,随着全球信息化的进 程加快,数据量的增加已经到达了前 所未有的速度,2011年创造的信息数 据达到180亿GB,而且每年以60%增 加,到2020年全球一年产生的数字信 息将达到35ZB,相当于350万亿GB。 数据在持续地增多变大,多到现有数 据技术无法分析处理,我们需要专门 来解读这些海量数据的技术,这就是 “大数据技术”。 2.基本概念 如同高德纳公司的报告里提到 的那样,业界普遍认同所谓“大数 据”具有明显的“3V特征”:量级 (Volume),速度(Velocity)和多 样性(Variety)。大数据普遍具有 量级大,要求处理速度快,数据本身 具有丰富的多样性。在甲骨文公司和 中国移动研究院的相关研究文档里, 都追加了第四个V——Value,价值, 而IBM在其相关文档中给出的第四个 “V”则是真实性(Veracity) 。 基于此,大数据可以被定义为: 以新数据处理技术为手段,在海量、 结构复杂、内容多样的数据集中,以 较快速度解析出规律性或根本性的判 断、趋势或预见。更为简单地说,是 数据集太大以至于传统数据库软件无 法处理,所以称为“大数据技术”。 从数据生成类型上区分,大数 据可分为交易数据、交互数据和传感 数据;从数据来源上分,大数据可分 为社交媒体、银行/购物网站、移动 电话和平板电脑、各种传感器/物联 网等等;从数据格式可以分为文本 日志、整型数据、图片、声音、视频 等;还可从数据关系上区分为结构化 数据(如交易流水帐)和非结构化数 据(如图、表,地图等);从数据所 有者可分为公司尤其巨型公司数据、 国内外主要互联网公司大数据布局与 应用比较研究 文|官建文 刘振兴 刘扬 摘要:本文先梳理大数据产生的背景、概念与范畴、技术概貌,然后列举国内外知名的 互联网公司对大数据发展的战略部署与实际应用,比较国内企业与国外企业在大数据技术应 用方面的异同与差距,在此基础上对大数据业务的未来发展作出分析展望。 TENDENCYUniting 修炼 46 中国传媒科技 /2012/9 Uniting 修炼 47 /9/2012 SCIENCE & TECHNOLOGY FOR CHINA'S MASS MEDIA 政府数据、社会数据——网络数据。 根据美国白宫的“大数据开 发”中的说,大数据开发也可 指“从庞大而复杂的数字数据中发 掘知识及现象后的本质(extrac t knowledge and insights from large and complex collections of digital data)”。同时也看到,现在所讨论 的大数据并不仅仅是数据尺寸的变 大,它还可以被视作一个机会,籍此 可以在新的正在生成的数据和内容中 找到本质的东西,从而使商业运作更 敏捷,帮助回答一些此前无法预知的 问题。 3.主要技术概要 大数据的提出是为了解决现有 数据技术无法满足快速增多、日益复 杂化的数据集合,因此基于大数据的 技术涉及层面较广,至少包括如下一 些现有技术的综合运用。关联规则学 习、分类、分组分析、众包技术、数 据异构与同构、机器学习、自然语言 处理、神经网络、模式识别、预测模 型、情态分析、信号处理、时序分析 和可视化处理等。 上述每一项技术如果展开来说, 需要写很多篇文章来讨论。如关联规 则学习,是数据挖掘的一个重要课 题,用于从大量数据中挖掘出有价值 的数据项之间的相关关系,由此产 生了对基于大数据的推荐系统的应用 研究。再如机器学习,机器学习算法 是从数据中自动分析获得规律,并利 用规律对未知数据进行预测的算法。 因为学习算法中涉及大量的统计学理 论,机器学习与统计推断学联系尤为 密切,也被称为统计学习理论。算法 设计方面,机器学习理论关注可以实 现的、行之有效的学习算法。很多推 论问题属于无程序可循难度,所以部 分的机器学习研究是开发容易处理的 近似算法。 大数据的具体化、实例化的应 用离不开Apache Hadoop项目,一 种开源、可扩展、分布式的应用计算 架构。它包括Common、Distributed File System、MapReduce三个组件 部分。Hadoop 的 Map/Reduce 框 架是一种主/从架构,机群中有单一 的主服务器以及若干个从服务器,在 每个节点都有一个从服务器,这些分 布式的节点协同工作,共同完成一个 整体的大数据处理任务。 国外主要互联网公司大数 据战略布局与应用 大数据技术与业务发展,仍然 以欧美国家大型IT公司为主进行。像 上一拨“云计算”的热潮一样,大数 据日渐成为IT厂商竞相抢占的制高 点,图1是2011年大数据厂商的收益 分析,数据来自Wikibon。 1.国际商用机器(IBM) IBM是商业分析和大数据技术 的最活跃厂商之一。早在大数据概念 进入媒体视野之前,IBM就提出“智 慧地球”的说法,其核心是把“智 慧”嵌入系统和流程之中,使服务的 交付、产品开发、制造、采购和销售 得以实现,使亿万人生活和工作的方 式变得更加智慧。现在,大数据技 术为IBM提供了一种实现途径。近年 来,IBM先后投资了SPSS、Clarity、 OpenPages、i2、Algorithmics等公 司用以开发其商业分析解决,为 客户提供预知判决、防范诈骗、风险 和威胁的能力。此外,IBM雇佣了近 9000名具有专业行业知识的资深分析 咨询师,建立起了由8个全球分析解 决方案中心联接起来的网络。 IBM大数据平台建立在开源的 Apache Hadoop之上。通过向用户 提供分析的整合手段从而理解信息以 求得更好的商业效益,此平台能够使 数据密集型应用软件更方便地管理 和分析PB级大数据。IBM正在扩展 其大数据平台以使其能在Hadoop的 其它运营平台上 运行,首先将推 广至Cloudera。 C l o u d e r a对于 Hdaoop社区的发 展作出了重大贡 献,同时也较早地 为金融服务、政 府、通信、媒体、 零售、能源、医保 等行业的客户提供 了基于Hadoop的 系统。Hadoop的 Cloudera用户现在 能够使用IBM大数 TENDENCYUniting 修炼 据平台进行复杂的数据分析,建立新 一代的软件应用程序。 2.甲骨文(Oracle) 甲骨文公司在官方文档中将自身 描述为“第一个为企业提供完整、集 成的大数据全面解决方案的厂商”。 它将大数据来源划分成为三类:1) 传统企业数据,如CRM系统,ERP系 统,在线交易数据等;2)机器生成 /传感器数据,如呼叫记录,网络日 志,智能度表,设备日志等;3)社 交数据,如用户反馈系统,微博和校 友录等等。甲骨文认为大数据对企业 来说非常重要,可以帮助企业更深刻 和透彻地理解商业行为,进而为改进 服务,提高竞争力和更好地创新提供 帮助。 甲骨文将大数据平台的行为概 括为:数据获取、数据组织和数据分 析。并为这三个阶段开发了不同的产 品,而这些产品又与其推出的“大 数据机”完全集成到一起。Oracle大 数据机是一个硬、软件集成系统, 融合了Cloudera公司的Distribution Inc lud ing Apache Hadoop和 Cloudera Manager,以及一个开源 R。该系统采用Oracle Linux操作 系统,配备有Oracle NoSQL数据库 社区版本和Oracle HotSpot Java虚 拟机。同时,甲骨文公司还宣布推 出了最新软件产品Oracle Big Data Connectors。该产品可以帮助客户利 用Oracle 数据库11g轻松整合存储在 Hadoop和Oracle NoSQL数据库中的 数据。 借助Oracle Exadata 数据库云 服务器、Oracle Exalogic中间件云 服务器与Oracle Exalytics商务智能 云服务器,配备有Oracle Big Data Connectors软件的Oracle大数据机将 能够满足客户在企业数据中心内获 取、组织和分析大数据的所有需求。 3.惠普(HP) 如图1所示,大数据厂商市场 份额第一是Vertica,目前已被HP收 购。在大数据方面,HP的收购还包 括:2010年9月3日,惠普以23.5亿美 元收购了存储企业3PAR,收购之后 3PAR存储业务已经连续6个季度保持 100%的增长,成为增长最快的高端存 储平台,同时也是惠普目前营收最大 的存储产品阵列;2011年 8月惠普以 100亿美元收购了英国第二大软件商 Autonomy,该公司擅长基于语义计 算的数据处理和数据挖掘,其软件被 设计用来识别结构化数据和非结构化 数据之间的关系。 惠普的大数据解决方案包括: 1)HP StoreOnce全新重复数据删 除解决方案,帮助企业在更短时间 内保护更多数据,从而在数据爆发 式增长时更好地应对风险。全新解 决方案首次在单一系统中实现了高 达100TB/小时的备份性能和40TB/ 小时的数据恢复性能;2)惠普融 合云(HP Converged Cloud)、 采用Autonomy Intelligent Data Operating Layer (IDOL) 10的HP Data Protector 7,让企业理解并 使用网络点击流量、浏览及交易数 据,从而发掘新趋势、机遇及风险 行动资产,从而促进业务增长及利 润;3)新版惠普Vertica分析平台 (HP Vertica Analytics Platform) Vertica 6,让企业能够在任何地点、 使用任何接口连接、分析和管理各种 类型的信息,VerticaFlexStore架构 为大数据分析提供灵活的框架,与 Hadoop、Autonomy或任何其它结构 化、非结构化或半结构化数据源的高 级集成或联合。 4.其他厂商和研究机构 英特尔(Intel)与麻省理工学 院(MIT)成立“英特尔科学技术中 心”,重点研究大数据技术,在其新 一代处理器中也增加了对大数据进行 处理的新技术。SAS、EMC等其他公 司也分别推出各自的大数据技术解决 方案。 研 究 机 构 如 麦 肯 锡 (McKinsey),推出专门研究报告认 为大数据是下一波科技竞争的前沿。 世界经济论坛(WEF)则发表了“大数 据,大冲击”的预测报告。联合国成 立了全球脉搏(Global Pulse),致 力于用大数据技术感知全球跳动的 “脉搏”。 国内主要互联网公司的大 数据战略布局与应用 随着互联网各类网络应用的不断 深入,中国的大数据技术与应用的快 速发展已成为不容忽视的事实。目前 国内各ICT企业,特别是大型互联网 企业,都开始对大数据的存储、处理 和应用进行战略布局。 1.百度 百度作为中国最大的搜索引擎, 在中国和中文互联网领域各项排行中 不是最大就是最多。2012年,百度日 均抓取约10亿网页,处理超过100PB (1PB=1024TB)的数据。过去10 年,百度网页搜索库已从500万猛增 到了500亿个页面。从公开的材料 看,百度的大数据战略往往与云计算图1 大数据厂商2011年市场份额 46 中国传媒科技 /2012/9 Uniting 修炼 47 /9/2012 SCIENCE & TECHNOLOGY FOR CHINA'S MASS MEDIA 政府数据、社会数据——网络数据。 根据美国白宫的“大数据开 发计划”中的说,大数据开发也可 指“从庞大而复杂的数字数据中发 掘知识及现象后的本质(extrac t knowledge and insights from large and complex collections of digital data)”。同时也看到,现在所讨论 的大数据并不仅仅是数据尺寸的变 大,它还可以被视作一个机会,籍此 可以在新的正在生成的数据和内容中 找到本质的东西,从而使商业运作更 敏捷,帮助回答一些此前无法预知的 问题。 3.主要技术概要 大数据的提出是为了解决现有 数据技术无法满足快速增多、日益复 杂化的数据集合,因此基于大数据的 技术涉及层面较广,至少包括如下一 些现有技术的综合运用。关联规则学 习、分类、分组分析、众包技术、数 据异构与同构、机器学习、自然语言 处理、神经网络、模式识别、预测模 型、情态分析、信号处理、时序分析 和可视化处理等。 上述每一项技术如果展开来说, 需要写很多篇文章来讨论。如关联规 则学习,是数据挖掘的一个重要课 题,用于从大量数据中挖掘出有价值 的数据项之间的相关关系,由此产 生了对基于大数据的推荐系统的应用 研究。再如机器学习,机器学习算法 是从数据中自动分析获得规律,并利 用规律对未知数据进行预测的算法。 因为学习算法中涉及大量的统计学理 论,机器学习与统计推断学联系尤为 密切,也被称为统计学习理论。算法 设计方面,机器学习理论关注可以实 现的、行之有效的学习算法。很多推 论问题属于无程序可循难度,所以部 分的机器学习研究是开发容易处理的 近似算法。 大数据的具体化、实例化的应 用离不开Apache Hadoop项目,一 种开源、可扩展、分布式的应用计算 架构。它包括Common、Distributed File System、MapReduce三个组件 部分。Hadoop 的 Map/Reduce 框 架是一种主/从架构,机群中有单一 的主服务器以及若干个从服务器,在 每个节点都有一个从服务器,这些分 布式的节点协同工作,共同完成一个 整体的大数据处理任务。 国外主要互联网公司大数 据战略布局与应用 大数据技术与业务发展,仍然 以欧美国家大型IT公司为主进行。像 上一拨“云计算”的热潮一样,大数 据日渐成为IT厂商竞相抢占的制高 点,图1是2011年大数据厂商的收益 分析,数据来自Wikibon。 1.国际商用机器(IBM) IBM是商业分析和大数据技术 的最活跃厂商之一。早在大数据概念 进入媒体视野之前,IBM就提出“智 慧地球”的说法,其核心是把“智 慧”嵌入系统和流程之中,使服务的 交付、产品开发、制造、采购和销售 得以实现,使亿万人生活和工作的方 式变得更加智慧。现在,大数据技 术为IBM提供了一种实现途径。近年 来,IBM先后投资了SPSS、Clarity、 OpenPages、i2、Algorithmics等公 司用以开发其商业分析解决方案,为 客户提供预知判决、防范诈骗、风险 和威胁的能力。此外,IBM雇佣了近 9000名具有专业行业知识的资深分析 咨询师,建立起了由8个全球分析解 决方案中心联接起来的网络。 IBM大数据平台建立在开源的 Apache Hadoop之上。通过向用户 提供分析的整合手段从而理解信息以 求得更好的商业效益,此平台能够使 数据密集型应用软件更方便地管理 和分析PB级大数据。IBM正在扩展 其大数据平台以使其能在Hadoop的 其它运营平台上 运行,首先将推 广至Cloudera。 C l o u d e r a对于 Hdaoop社区的发 展作出了重大贡 献,同时也较早地 为金融服务、政 府、通信、媒体、 零售、能源、医保 等行业的客户提供 了基于Hadoop的 系统。Hadoop的 Cloudera用户现在 能够使用IBM大数 TENDENCYUniting 修炼 据平台进行复杂的数据分析,建立新 一代的软件应用程序。 2.甲骨文(Oracle) 甲骨文公司在官方文档中将自身 描述为“第一个为企业提供完整、集 成的大数据全面解决方案的厂商”。 它将大数据来源划分成为三类:1) 传统企业数据,如CRM系统,ERP系 统,在线交易数据等;2)机器生成 /传感器数据,如呼叫记录,网络日 志,智能度表,设备日志等;3)社 交数据,如用户反馈系统,微博和校 友录等等。甲骨文认为大数据对企业 来说非常重要,可以帮助企业更深刻 和透彻地理解商业行为,进而为改进 服务,提高竞争力和更好地创新提供 帮助。 甲骨文将大数据平台的行为概 括为:数据获取、数据组织和数据分 析。并为这三个阶段开发了不同的产 品,而这些产品又与其推出的“大 数据机”完全集成到一起。Oracle大 数据机是一个硬、软件集成系统, 融合了Cloudera公司的Distribution Inc lud ing Apache Hadoop和 Cloudera Manager,以及一个开源 R。该系统采用Oracle Linux操作 系统,配备有Oracle NoSQL数据库 社区版本和Oracle HotSpot Java虚 拟机。同时,甲骨文公司还宣布推 出了最新软件产品Oracle Big Data Connectors。该产品可以帮助客户利 用Oracle 数据库11g轻松整合存储在 Hadoop和Oracle NoSQL数据库中的 数据。 借助Oracle Exadata 数据库云 服务器、Oracle Exalogic中间件云 服务器与Oracle Exalytics商务智能 云服务器,配备有Oracle Big Data Connectors软件的Oracle大数据机将 能够满足客户在企业数据中心内获 取、组织和分析大数据的所有需求。 3.惠普(HP) 如图1所示,大数据厂商市场 份额第一是Vertica,目前已被HP收 购。在大数据方面,HP的收购还包 括:2010年9月3日,惠普以23.5亿美 元收购了存储企业3PAR,收购之后 3PAR存储业务已经连续6个季度保持 100%的增长,成为增长最快的高端存 储平台,同时也是惠普目前营收最大 的存储产品阵列;2011年 8月惠普以 100亿美元收购了英国第二大软件商 Autonomy,该公司擅长基于语义计 算的数据处理和数据挖掘,其软件被 设计用来识别结构化数据和非结构化 数据之间的关系。 惠普的大数据解决方案包括: 1)HP StoreOnce全新重复数据删 除解决方案,帮助企业在更短时间 内保护更多数据,从而在数据爆发 式增长时更好地应对风险。全新解 决方案首次在单一系统中实现了高 达100TB/小时的备份性能和40TB/ 小时的数据恢复性能;2)惠普融 合云(HP Converged Cloud)、 采用Autonomy Intelligent Data Operating Layer (IDOL) 10的HP Data Protector 7,让企业理解并 使用网络点击流量、浏览及交易数 据,从而发掘新趋势、机遇及风险 行动资产,从而促进业务增长及利 润;3)新版惠普Vertica分析平台 (HP Vertica Analytics Platform) Vertica 6,让企业能够在任何地点、 使用任何接口连接、分析和管理各种 类型的信息,VerticaFlexStore架构 为大数据分析提供灵活的框架,与 Hadoop、Autonomy或任何其它结构 化、非结构化或半结构化数据源的高 级集成或联合。 4.其他厂商和研究机构 英特尔(Intel)与麻省理工学 院(MIT)成立“英特尔科学技术中 心”,重点研究大数据技术,在其新 一代处理器中也增加了对大数据进行 处理的新技术。SAS、EMC等其他公 司也分别推出各自的大数据技术解决 方案。 研 究 机 构 如 麦 肯 锡 (McKinsey),推出专门研究报告认 为大数据是下一波科技竞争的前沿。 世界经济论坛(WEF)则发表了“大数 据,大冲击”的预测报告。联合国成 立了全球脉搏(Global Pulse),致 力于用大数据技术感知全球跳动的 “脉搏”。 国内主要互联网公司的大 数据战略布局与应用 随着互联网各类网络应用的不断 深入,中国的大数据技术与应用的快 速发展已成为不容忽视的事实。目前 国内各ICT企业,特别是大型互联网 企业,都开始对大数据的存储、处理 和应用进行战略布局。 1.百度 百度作为中国最大的搜索引擎, 在中国和中文互联网领域各项排行中 不是最大就是最多。2012年,百度日 均抓取约10亿网页,处理超过100PB (1PB=1024TB)的数据。过去10 年,百度网页搜索库已从500万猛增 到了500亿个页面。从公开的材料 看,百度的大数据战略往往与云计算图1 大数据厂商2011年市场份额 48 中国传媒科技 /2012/9 Uniting 修炼 49 /9/2012 SCIENCE & TECHNOLOGY FOR CHINA'S MASS MEDIA TENDENCYUniting 修炼 绑定在一起,强调大数据储存与处理 能力。2011年8月,百度宣布将用三 年的时间建立一个全国最大的数据中 心,并且主打“绿色”。通过对大数 据流量的把握,百度经过设计,降低 设备能耗、减少服务器、日间侧重商 业业务、夜间侧重数据业务,从而让 “百度的单体十万台服务器的数据中 心,PUE每降低0.1,一年就可为百 度节省上千万元的成本。” 2.腾讯 腾讯自称“目前中国最大的互 联网综合服务提供商之一,也是中国 服务用户最多的互联网企业之一”, 拥有超过7.52亿QQ 即时通讯活跃账 户,1亿微信用户、4.25亿微博用户 和超过1亿的视频用户。在积累了个 人用户多方面的海量数据后,2012年 腾讯提出了“大数据营销”的概念。 腾讯网总编辑陈菊红表示“将从这些 海量数据中挖掘、分辨出用户的行为 模式、兴趣偏好等,打造专属于每个 人的智慧门户。” 腾讯不仅在各大 产品线中都设置了数据挖掘团队,还 在和一些第三方数据挖掘公司、营销 公司展开合作洽谈,充分挖掘用户在 网上的行为、关系、UGC(用户产生 的内容)等数据,“通过合理的方法 找到对企业有帮助的数据,并且将营 销预算合理的分配在为数众多的数据 来源平台上”,从而提高营销效率。 2011年4月腾讯追加在天津的数据中 心建设投资,欲建立亚洲最大的数据 储备处理中心。 3.淘宝 相比中国用户最多的两家互联 网企业,淘宝在大数据方面的举措丝 毫不逊色,因为几乎所有淘宝业务都 依赖淘宝数据库。每天大约有6000万 用户登录淘宝网,约20亿页面浏览量 (PV)。淘宝所使用的OceanBase分 布式数据库,在基准数据和增量数据 基础上,实现不同部门对数千亿条记 录、数百TB数据上的跨行跨表事务 共同完成,并支持每天4000~5000万 的更新操作。早在2009年淘宝便自建 大型数据库,并通过对全国淘宝购买 数据的挖掘发布了2011年淘宝中国地 图,对其掌握的大量用户交易数据进 行了形象的展示。在利用大数据为提 高用户购物体验的旗号下,淘宝根据 长尾原理充分利用大数据挖掘技术, 建设开放平台,提供各种增值服务。 4.盛大网络 盛大网络提供的文学和游戏服务 吸引了为数众多的用户。2012年8月 盛大调整了旗下盛大创新院的组织架 构,将研究焦点放到了海量数据挖掘 与智能推荐技术,深度把握个性化用 户需求,将“介绍一个大家喜欢的内 容”,而变为“推荐一个你会喜欢的 内容”,不仅提升用户体验,而且将 发展大数据作为盛大向视频和移动领 域进军的机遇,将其作为未来10年赖 以生存的核心竞争力予以高度重视。 5.中国移动 作为中国最大的移动通讯运营 商,截至2012年4月底,中国移动用 户数已经达到6.7亿。同时,中国移 动正在谋求从移动运营商的管道角色 向客户端制造和云端服务两个方向发 展。而大数据业务的投入,为此提供 了机遇。2011年第四季度中国移动先 后与内蒙古自治区和黑龙江省签署合 作协议,在呼和浩特、哈尔滨建设全 国规模最大、技术最先进、能耗最低 的云计算数据中心。2012年2月又确 定在成都建立西部最大数据中心,完 成了其在国内数据中心的三大数据基 地布局。 国内外大数据布局 与应用比较 国内互联网企业大数据的布局虽 然略迟于国外,但从规模和投入上不 容小觑。国内外在此领域的建设基本 同步,体现在以下三个方面:第一, 国外、国内大型互联网企业对大数据 布局都加大投入规模,不仅是物理存 储设备和处理能力的建设,也加强了 分析工具的开发与分析人才队伍建 设;第二,它们都在思考如何用足、 用好大数据,期待从数据中挖掘潜在 的巨大价值,使其为企业自身、用户 和第三方带来便利与收益;第三,它 们赋予大数据在数据之外的意义,都 将大数据作为企业向其他领域延伸、 转型的机会。 但是,限于国内外互联网发展水 平、视野和其他产业积淀的不同,在 大数据建设重点、建设方式和长远战 略上存在差异。 在建设重点上,国内企业侧重于 物理上数据存储能力建设。无论是百 度、腾讯,还是淘宝、中国移动都推 出了各自数据中心项目,通常以容量 来衡量成就。而国外企业则已经主要 侧重分析工具手段和围绕用户的解决 方案开发,已经明确了大数据的盈利 方式,并沿此方向不断深入。国内企 业的大数据盈利更多是在探索阶段。 因为建设重点不同,国内企业往 往采取“各自为战”、“平地起楼” 的建设方式,从基础层面分头进行大 数据存储或处理的开发。国外企业却 多采用收购兼并、合作开发多种方式 来进行建设,推进大数据存储、处 理、分析综合发展,而不偏于一隅。 大数据就是网络社会的未来, 国外企业对大数据的提法看似“务 虚”,但实际上目光长远,如IBM的 智慧地球,真正体现了战略思考。而 国内企业在更长时间、更广范围上的 全球化布局上略显不足,大多都只以 当下国内市场为目标进行大数据的定 位与思考。 但在大数据具体应用上,国内 企业的差异不大。首先,是为自身服 务,通过大数据的开发,获取自身运 行数据,为更科学、高效的组织结构 安排提供条件,如百度的绿色数据 中心建设。借助大数据的开发,让企 业自身也变得更为灵巧,为涉足其他 领域提供了机遇,如英特尔和中国移 动。其次,企业通过深入挖掘用户大 数据,对其行为、习惯有更为准确的 把握,可以不断改善产品和服务,提 升用户体验。最后,大数据的挖掘为 其他商业企业营销和社会智能部门服 务与管理提供依据,很可能会突破长 期以来广告模式的霸主地位。 面向未来的大数据业务 硬件有价,数据无价,数据本身 就是资产。正如麦肯锡的大数据专题 报告所指出的那样,大数据已经渗透 到每一个工商业组织内,将成为重要 的生产要素、决策依据。大数据将产 生大价值,增强企业的竞争力,将是 下一波创新、竞争和提高生产力的前 沿技术。 在市场方面,大数据业务将每 年为美国全民医保带来3000亿的价 值,全球因为个人地理信息的应用将 额外产生6000亿美元的零售额,为美 国创造14-19万个数据分析人员岗位 等内容。另外,大数据也促使各大IT 公司对信息管理专家及相关技术研发 的需求,最近几年,甲骨文、IBM、 微软、SAP和惠普已经在数据管理和 分析上花费了超过150亿美元。目前 数据挖掘及分析产业值约有1000亿 美元,而且每年以10%的增长率在递 增。在中国,大数据也会有比较大的 发展空间,据国内有关机构估算,未 来中国大数据潜在市场规模有望近2 万亿。 在技术领域,一方面,大数据面 临的有效存储、快速读写、实时分析 等挑战,将对芯片、存储产业产生重 要影响,还将催生一体化数据存储处 理服务器、内存计算等市场。另一方 面,因为大数据中蕴含的巨大价值, 带来对数据快速处理和分析的迫切需 求,将引发数据挖掘、商业智能市场 的空前繁荣。 在应用方面,大数据业务可以在 如下四个方面得到广泛的应用:1) 快速地对突发事件的跟踪和响应,体 现大数据“速度V”的特征;2)提高 对危机行为变化的理解与判断,大数 据“内容多样性V”的特征;3)精确 绘制服务需求分布地图的能力,基于 海量数据的统计分析;4)提高预测 需求和供应变化的能力,综合运用大 数据的快速、海量、多样数据的数据 挖掘技术。 总体而言,大数据技术及业务 发展,刚刚起步,展望未来,一片蓝 海,但其中也隐含一些“礁石”,应 引起注意和思考概括起来,可能有如 下几点: 1)数据挖掘中的隐私问 题;2)数据驱动的创新问题。 数据安全是数字化生活方式的 隐忧之一。在现阶段人们已经生成了 很多数据记录,比电话记录、上网痕 迹、交易记录等,凡使用数字化工具 都会留下记录。将来这些数据在各个 环节打通以后,一个人的行为就无法 隐藏,数据持有人可以从历史数据中 推测判断出行为人的下一步动作—— 个人行动轨迹、行为轨迹,甚至思 维轨迹。在纽约时报的一篇专题报道 中,受用户赞同最多的一篇评论说, “他们(大数据持有方)想知道每一 毫秒我们在做什么,找出我们的行为 模式,比我们自己更了解我们,从我 们已经忘记的随意点击中榨取我们每 一分钱。”或许这些提法有些危言耸 听,但绝非不可能,大数据技术的终 究目的是使用事实统计数据,分析预 测未来趋向。 另外,大数据时代,日渐发展的 数据驱动式的决策模式,降低了决策 风险,也扼杀了潜在的、没有数据支 持的创新。在未来可能看到这样的情 形,基于对人性和事物的感性认识, 或者基于某种未经数据验证的理论, 一个人或者组织推出某种服务,在进 行决策时,由于缺少过往数据分析, 没有数据支持,而无法通过惯性的数 据驱动的决议形式而形成最终的商业 项目。 综上,尽管大数据面临一些小 问题,但仍是蓬勃发展的趋势,大数 据技术是数字化发展的必然,它为人 类全面、深刻地认识世界、认识自身 提供了新的方式、新视角,这在此前 的时代是无法办到的。我们期待大数 据技术为人类文明的发展做出巨大贡 献,让科技再次成为驱动社会发展的 巨大动力。■ (作者单位:人民网研究院) 48 中国传媒科技 /2012/9 Uniting 修炼 49 /9/2012 SCIENCE & TECHNOLOGY FOR CHINA'S MASS MEDIA TENDENCYUniting 修炼 绑定在一起,强调大数据储存与处理 能力。2011年8月,百度宣布将用三 年的时间建立一个全国最大的数据中 心,并且主打“绿色”。通过对大数 据流量的把握,百度经过设计,降低 设备能耗、减少服务器、日间侧重商 业业务、夜间侧重数据业务,从而让 “百度的单体十万台服务器的数据中 心,PUE每降低0.1,一年就可为百 度节省上千万元的成本。” 2.腾讯 腾讯自称“目前中国最大的互 联网综合服务提供商之一,也是中国 服务用户最多的互联网企业之一”, 拥有超过7.52亿QQ 即时通讯活跃账 户,1亿微信用户、4.25亿微博用户 和超过1亿的视频用户。在积累了个 人用户多方面的海量数据后,2012年 腾讯提出了“大数据营销”的概念。 腾讯网总编辑陈菊红表示“将从这些 海量数据中挖掘、分辨出用户的行为 模式、兴趣偏好等,打造专属于每个 人的智慧门户。” 腾讯不仅在各大 产品线中都设置了数据挖掘团队,还 在和一些第三方数据挖掘公司、营销 公司展开合作洽谈,充分挖掘用户在 网上的行为、关系、UGC(用户产生 的内容)等数据,“通过合理的方法 找到对企业有帮助的数据,并且将营 销预算合理的分配在为数众多的数据 来源平台上”,从而提高营销效率。 2011年4月腾讯追加在天津的数据中 心建设投资,欲建立亚洲最大的数据 储备处理中心。 3.淘宝 相比中国用户最多的两家互联 网企业,淘宝在大数据方面的举措丝 毫不逊色,因为几乎所有淘宝业务都 依赖淘宝数据库。每天大约有6000万 用户登录淘宝网,约20亿页面浏览量 (PV)。淘宝所使用的OceanBase分 布式数据库,在基准数据和增量数据 基础上,实现不同部门对数千亿条记 录、数百TB数据上的跨行跨表事务 共同完成,并支持每天4000~5000万 的更新操作。早在2009年淘宝便自建 大型数据库,并通过对全国淘宝购买 数据的挖掘发布了2011年淘宝中国地 图,对其掌握的大量用户交易数据进 行了形象的展示。在利用大数据为提 高用户购物体验的旗号下,淘宝根据 长尾原理充分利用大数据挖掘技术, 建设开放平台,提供各种增值服务。 4.盛大网络 盛大网络提供的文学和游戏服务 吸引了为数众多的用户。2012年8月 盛大调整了旗下盛大创新院的组织架 构,将研究焦点放到了海量数据挖掘 与智能推荐技术,深度把握个性化用 户需求,将“介绍一个大家喜欢的内 容”,而变为“推荐一个你会喜欢的 内容”,不仅提升用户体验,而且将 发展大数据作为盛大向视频和移动领 域进军的机遇,将其作为未来10年赖 以生存的核心竞争力予以高度重视。 5.中国移动 作为中国最大的移动通讯运营 商,截至2012年4月底,中国移动用 户数已经达到6.7亿。同时,中国移 动正在谋求从移动运营商的管道角色 向客户端制造和云端服务两个方向发 展。而大数据业务的投入,为此提供 了机遇。2011年第四季度中国移动先 后与内蒙古自治区和黑龙江省签署合 作协议,在呼和浩特、哈尔滨建设全 国规模最大、技术最先进、能耗最低 的云计算数据中心。2012年2月又确 定在成都建立西部最大数据中心,完 成了其在国内数据中心的三大数据基 地布局。 国内外大数据布局 与应用比较 国内互联网企业大数据的布局虽 然略迟于国外,但从规模和投入上不 容小觑。国内外在此领域的建设基本 同步,体现在以下三个方面:第一, 国外、国内大型互联网企业对大数据 布局都加大投入规模,不仅是物理存 储设备和处理能力的建设,也加强了 分析工具的开发与分析人才队伍建 设;第二,它们都在思考如何用足、 用好大数据,期待从数据中挖掘潜在 的巨大价值,使其为企业自身、用户 和第三方带来便利与收益;第三,它 们赋予大数据在数据之外的意义,都 将大数据作为企业向其他领域延伸、 转型的机会。 但是,限于国内外互联网发展水 平、视野和其他产业积淀的不同,在 大数据建设重点、建设方式和长远战 略上存在差异。 在建设重点上,国内企业侧重于 物理上数据存储能力建设。无论是百 度、腾讯,还是淘宝、中国移动都推 出了各自数据中心项目,通常以容量 来衡量成就。而国外企业则已经主要 侧重分析工具手段和围绕用户的解决 方案开发,已经明确了大数据的盈利 方式,并沿此方向不断深入。国内企 业的大数据盈利更多是在探索阶段。 因为建设重点不同,国内企业往 往采取“各自为战”、“平地起楼” 的建设方式,从基础层面分头进行大 数据存储或处理的开发。国外企业却 多采用收购兼并、合作开发多种方式 来进行建设,推进大数据存储、处 理、分析综合发展,而不偏于一隅。 大数据就是网络社会的未来, 国外企业对大数据的提法看似“务 虚”,但实际上目光长远,如IBM的 智慧地球,真正体现了战略思考。而 国内企业在更长时间、更广范围上的 全球化布局上略显不足,大多都只以 当下国内市场为目标进行大数据的定 位与思考。 但在大数据具体应用上,国内 企业的差异不大。首先,是为自身服 务,通过大数据的开发,获取自身运 行数据,为更科学、高效的组织结构 安排提供条件,如百度的绿色数据 中心建设。借助大数据的开发,让企 业自身也变得更为灵巧,为涉足其他 领域提供了机遇,如英特尔和中国移 动。其次,企业通过深入挖掘用户大 数据,对其行为、习惯有更为准确的 把握,可以不断改善产品和服务,提 升用户体验。最后,大数据的挖掘为 其他商业企业营销和社会智能部门服 务与管理提供依据,很可能会突破长 期以来广告模式的霸主地位。 面向未来的大数据业务 硬件有价,数据无价,数据本身 就是资产。正如麦肯锡的大数据专题 报告所指出的那样,大数据已经渗透 到每一个工商业组织内,将成为重要 的生产要素、决策依据。大数据将产 生大价值,增强企业的竞争力,将是 下一波创新、竞争和提高生产力的前 沿技术。 在市场方面,大数据业务将每 年为美国全民医保带来3000亿的价 值,全球因为个人地理信息的应用将 额外产生6000亿美元的零售额,为美 国创造14-19万个数据分析人员岗位 等内容。另外,大数据也促使各大IT 公司对信息管理专家及相关技术研发 的需求,最近几年,甲骨文、IBM、 微软、SAP和惠普已经在数据管理和 分析上花费了超过150亿美元。目前 数据挖掘及分析产业值约有1000亿 美元,而且每年以10%的增长率在递 增。在中国,大数据也会有比较大的 发展空间,据国内有关机构估算,未 来中国大数据潜在市场规模有望近2 万亿。 在技术领域,一方面,大数据面 临的有效存储、快速读写、实时分析 等挑战,将对芯片、存储产业产生重 要影响,还将催生一体化数据存储处 理服务器、内存计算等市场。另一方 面,因为大数据中蕴含的巨大价值, 带来对数据快速处理和分析的迫切需 求,将引发数据挖掘、商业智能市场 的空前繁荣。 在应用方面,大数据业务可以在 如下四个方面得到广泛的应用:1) 快速地对突发事件的跟踪和响应,体 现大数据“速度V”的特征;2)提高 对危机行为变化的理解与判断,大数 据“内容多样性V”的特征;3)精确 绘制服务需求分布地图的能力,基于 海量数据的统计分析;4)提高预测 需求和供应变化的能力,综合运用大 数据的快速、海量、多样数据的数据 挖掘技术。 总体而言,大数据技术及业务 发展,刚刚起步,展望未来,一片蓝 海,但其中也隐含一些“礁石”,应 引起注意和思考概括起来,可能有如 下几点: 1)数据挖掘中的隐私问 题;2)数据驱动的创新问题。 数据安全是数字化生活方式的 隐忧之一。在现阶段人们已经生成了 很多数据记录,比电话记录、上网痕 迹、交易记录等,凡使用数字化工具 都会留下记录。将来这些数据在各个 环节打通以后,一个人的行为就无法 隐藏,数据持有人可以从历史数据中 推测判断出行为人的下一步动作—— 个人行动轨迹、行为轨迹,甚至思 维轨迹。在纽约时报的一篇专题报道 中,受用户赞同最多的一篇评论说, “他们(大数据持有方)想知道每一 毫秒我们在做什么,找出我们的行为 模式,比我们自己更了解我们,从我 们已经忘记的随意点击中榨取我们每 一分钱。”或许这些提法有些危言耸 听,但绝非不可能,大数据技术的终 究目的是使用事实统计数据,分析预 测未来趋向。 另外,大数据时代,日渐发展的 数据驱动式的决策模式,降低了决策 风险,也扼杀了潜在的、没有数据支 持的创新。在未来可能看到这样的情 形,基于对人性和事物的感性认识, 或者基于某种未经数据验证的理论, 一个人或者组织推出某种服务,在进 行决策时,由于缺少过往数据分析, 没有数据支持,而无法通过惯性的数 据驱动的决议形式而形成最终的商业 项目。 综上,尽管大数据面临一些小 问题,但仍是蓬勃发展的趋势,大数 据技术是数字化发展的必然,它为人 类全面、深刻地认识世界、认识自身 提供了新的方式、新视角,这在此前 的时代是无法办到的。我们期待大数 据技术为人类文明的发展做出巨大贡 献,让科技再次成为驱动社会发展的 巨大动力。■ (作者单位:人民网研究院)
/
本文档为【国内外主要互联网公司大数据布局与应用比较研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索