当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
拥抱大数据 走近大数据分析工具
  • 2013-8-13 9:03:11
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:薛昱
  • 作者:
【电脑报在线】若要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。大数据正在推动生产力迅速发展和创新,对于海量数据的应用也预示着新一波生产率大幅增长时期的到来。

    若要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。大数据正在推动生产力迅速发展和创新,对于海量数据的应用也预示着新一波生产率大幅增长时期的到来。


大数据的好处

    严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上世纪90年代就经常将“Big Data”挂在嘴边了。大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,它们使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但现在全世界仅数天内就可创造出相同的数据量。来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB的硬盘来存储这些数据。

    但是大数据并非单指数据量大,对于大数据,IDC的定义是:“大数据是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为四个“V”,即更大的容量(Volume,从TB级跃升至PB级,甚至EB级)、更高的多样性(Variety,包括结构化、半结构化和非结构化数据),以及更快的生成速度(Velocity)。前面三个“V”的组合推动了第四个因素——价值(Value),而关于大数据所蕴含的价值,有许多被人所津津乐道的故事可以佐证。

     大数据的4V特性

    早在19世纪,“百货商店之父”约翰·沃纳梅克便提出了:“我在广告上的投资有一半是无用的,但是问题是我不知道是哪一半?”这也是对经典商业模式下供需不对称的典型描述。而现在依靠大数据的分析预测能力,一些精明的零售商正在收集和挖掘消费大数据,针对顾客在网上的购买行为,投其喜好进行销售与推广,实现社交电子商务和库存优化。

    例如,大数据分析软件有可能使零售商进行直接相关的促销和营销活动,激励消费者进行网购,并跟踪由此产生的销售交易,最大限度地提高消费,提高盈利能力,在短时间内产生最大收益。比如Trident Marketing是一家营销企业,其客户包括DIRECTV等品牌,通过IBM大数据分析软件的帮助,他们甚至可以预计客户最佳联系时间以及客户是否会取消购买服务。其营收在短短4年间增长了10倍,产品部署后头两个月的销售额增长10%,而且其客户流失率降低了50%。

    去年,西班牙电信推出了名为“智慧足迹”的大数据服务,通过向数据挖掘公司等合作方提供定向人流的移动数据,为零售客户开店选址和促销提供借鉴。另一个典型的案例是,2012年成功获得连任的美国总统奥巴马背后,有一个几十人的数据分析与挖掘团队,帮助他在获取有效选民、投放广告、募集资金等方面发挥作用。

    从以上的例子不难看出,大数据的价值和重要性已经毋庸置疑。不过现在最关键的问题是,每个企业如何才能获取大数据中的“宝藏”呢?

 

Hadoop,大数据分析利器

  对于较大的公司来说,海量数据处理已经不是什么新鲜的东西了。例如,Twitter和LinkedIn已经是大数据的著名用户了,这两家公司已经奠定了明显的竞争优势,通过挖掘他们的大规模数据仓库来判断发展趋势。那么,中型企业的CIO该怎么办呢?幸运的是,手边就有可用的工具。这些工具中有一款是免费的,那就是Hadoop,它基于Java的Apache Hadoop编程框架。Hadoop是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下开发分布式程序。简单来说,Hadoop是一套开源的、以Java为基础的、可对PB级别的大数据进行存储和计算的软件平台,它能够让数千台X86服务器组成一个稳定的、强大的集群。而对那些想充分利用大数据的IT专业人员,Hadoop解决了与大数据相关联的最常见的问题:高效的存储和访问海量数据。

利用Hadoop可进行高效存储和访问海量数据

    Hadoop主要由HDFS、MapReduce和Hbase组成,其内在设计让它能够在大量不共享任何内存和磁盘的计算机平台上运行。考虑到这一点,就能很容易看到Hadoop提供的价值——网络管理员可以购买许多商品服务器,将它们放在机架上,然后在每台服务器上运行Hadoop软件,Hadoop有助于减少大型数据集相关联的管理开销。在操作上,一旦企业的数据加载到Hadoop平台,软件就会把数据分解成可管理的段,然后自动将这些数据分配给不同的服务器。同时Hadoop跟踪数据驻留的位置,并通过创建多个存储副本进一步保护这些信息。这样,系统的伸缩性增强了,如果某个服务器脱机或者失败了,数据可以自动复制已知的正常副本。

 Hadoop的工作原理

  Hadoop在过去一年半时间里在大数据领域获得了极大的肯定。调查显示,以Hadoop为代表的分布式存储与计算技术成为最受关注的数据分析管理新技术,市场比例达到29.86%;其次是以SAP HANA为代表的内存数据库技术,市场比例达到23.30%;以Google Cloud SQL为代表的云数据库排名第三市场比例为16.29%。考虑到Apache Hadoop1.0版是在2011年11月底发布的这一事实,Hadoop获得这么多企业的认可确实令人惊讶。作为大数据分析方面的一项重要技术,大规模使用Hadoop已是必然趋势。目前谷歌、雅虎、亚马逊、Facebook,以及国内的淘宝、百度等都采用了Hadoop技术来处理海量数据。Hortonworks公司的CEO Eric Baldeschwieler预测:在2017年Hadoop将处理全世界数据的半数之多,而全球的行业专家和用户们都把Hadoop称为事实上的数据分析标准。 

 

IT巨头借Hadoop发力大数据

    尽管Hadoop是开源软件,但英特尔、IBM、Cloudera等厂商都推出了他们各自的Hadoop特别发行版本。这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务,主要适合企业用户使用。毕竟绝大多数企业用户都和互联网公司一样具有强大的技术实力,采用具有商业支持的开源Hadoop技术能够快速切入到大数据应用中去。    

    如针对企业大数据方向开发者,IBM就推出了多款产品和技术。其新版本企业级Hadoop产品InfoSphere BigInsights可以利用现有的SQL技术,更便捷地开发应用组件。兼具安全性强和高可用性的特点,新版的InfoSphere BigInsights能够更加契合企业部署需求。惠普则在接连收购Vertica和Autonomy后,也推出了与Vertica 6实现高级集成的大数据应用平台——HP AppSystem for Apache Hadoop。而英特尔针对大数据的开放架构核心产品线,也推出了英特尔Hadoop分发版,让用户可以实现“软硬协同、体验至上”的创新效果。例如,利用英特尔至强处理器平台对网络和I/O技术所做的优化,与英特尔Hadoop分发版进行强力组合,以往分析1TB的数据需要4个多小时才能完全处理完,现在仅需要短短的7分钟即可完成,极大地提升了大数据分析的速度。

     英特尔推出的Hadoop分发版

    当然,微软也不会缺阵这场大数据的盛宴。结合对大数据本身的认知和自身强大的产品组合,微软正在为用户提供一个端到端的大数据解决方案。简单来说,就是后端以新一代SQL Server 2012为基准平台,将大数据“管“起来,然后在中端以数据集市为依托,配以丰富的数据应用,最后在前端以丰富的界面形式展现数据分析的结果,完成数据的汇总→应用与分析→结果呈现的完整流程。为帮助企业快速应用其大数据解决方案,微软将同时在Windows Azure平台和Windows Server平台上提供Hadoop(在前者上用作基于云的服务,在后者上用作内部部署的分布)。此外,Cloudera、Splunk 、Clustrix、1010data等一些新兴的大数据企业异军突起,它们力争在未来庞大的市场需求中抢占一定的份额。不过,令人遗憾的是,国内类似的大数据创新企业还比较少,希望这一局面能够尽早得到改变。

    小结:大数据的角逐已经开始了。今年大数据市场规模将进一步膨胀,一些新的细分市场将会出现。例如,以数据分析和处理为主的高级数据服务,将出现以数据分析作为服务产品提交的分析即服务业务;将多种信息整合管理,创造对大数据统一的访问和分析的组件产品;基于社交网络的社交大数据分析。不过,从大的环境来看,目前大数据发展还处于起步阶段,无论是软件技术、硬件技术还是软硬件一体化的技术,国内企业要想在大数据发展中抢到更多的话语权,现在就必须高度重视并着手在大数据应用实践中找准切入点。要知道,忽略数据分析大势的CIO们实际上是在拿自己的职业冒险。

 
本文出自2013-08-12出版的《电脑报》2013年第31期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交